Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 01:50 同步状态:空闲 下次计划:2026-04-19 02:50

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-25
性能优化 重要性 6.00 洞察度 6.00

在 SM90+ GPU 上使用 FlashInfer tinygemm 优化 GPT-OSS MoE router,提升推理性能。

建议工程师精读此 PR,学习如何集成外部高性能内核并设计条件回退机制。重点关注 TinyGemmLinear 类的条件缓存设计、性能基准测试方法,以及 review 中关于扩展性和优化权衡的讨论。

#21334 [CI] Skip multimodal CI for doc-only changes

作者 hnyls2002 · 合并时间 2026-03-25 05:07

基础设施 重要性 3.00 洞察度 3.00

优化 multimodal CI 路径过滤,跳过文档文件变更,减少不必要测试运行。

建议 CI 维护者和涉及 CI 配置的工程师精读此 PR,以了解 `dorny/paths-filter` 中路径过滤模式的正确使用方法。关注 extglob 模式 `*.!(md|ipynb)` 的设计决策,它平衡了灵活性和简洁性。

测试 重要性 6.00 洞察度 6.00

为AMD MI325 runner添加4-GPU CI测试套件,包括per-commit和nightly测试。

该PR值得精读,特别是对于负责CI和测试的工程师,可以学习AMD/NVIDIA路径隔离的设计模式,以及如何通过条件逻辑(如is_in_amd_ci())和注册系统(register_amd_ci())维护多平台兼容性。

#19742 Add Lychee Doc Links Check to Local and CI

作者 JiaxinD · 合并时间 2026-03-25 04:48

基础设施 重要性 6.00 洞察度 5.00

添加Lychee文档链接检查至本地和CI,提升文档可靠性并修复broken链接。

建议技术管理者关注CI工作流设计中的权衡(如离线vs在线检查),工程师可精读lychee配置文件和夜间工作流,学习如何平衡检查频率与开发者体验。

功能 重要性 7.00 洞察度 7.00

为MoE(混合专家)层添加LoRA(低秩适应)支持,并启用张量并行性(TP)以提升模型适应性。

建议技术管理者和工程师精读此PR,重点关注FusedMoEWithLoRA的设计如何融合LoRA增量(与vLLM保持一致),以及review中讨论的shape bug修复和测试策略。同时,注意未来扩展计划(TP>1、csgmv后端)以规划后续开发。

测试 重要性 4.00 洞察度 4.00

为MOVA-360p视频生成模型添加CI测试,覆盖单GPU和双GPU配置。

该PR值得快速浏览以了解新模型集成到测试套件的模式。重点关注如何重用现有sampling_params避免冗余定义,以及测试用例中不同并行配置(如tp_size、ring_degree)的设计,这对理解扩散模型测试框架有参考价值。

缺陷修复 重要性 5.00 洞察度 3.00

修复AMD夜间测试中的Transformers 5.3.0不兼容性和gemma2-27b KV缓存问题。

该PR值得快速浏览,特别是对于负责CI维护和模型兼容性处理的工程师。关注grok.py中配置获取的健壮性模式,可作为处理类似库升级问题的参考,而aiter_backend.py的None检查展示了防御性编程在核心路径中的应用。

2026-03-24

#20352 [Diffusion][NPU] Add support for Hunyuan3D

作者 e-martirosian · 合并时间 2026-03-24 21:18

功能 重要性 6.00 洞察度 6.00

为Hunyuan3D扩散管道添加NPU支持,使模型能在Ascend NPU上运行。

建议技术管理者关注此PR中的设备抽象设计以及未来向NPU原生光栅化的演进计划;工程师可精读 __init__.py 文件,了解条件编译和设备处理模式,并注意数据类型转换可能带来的精度影响。

参与讨论