Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-11
性能优化 重要性 5.94 洞察度 6.00

DeepSeek V3.2 Indexer GEMM 精度与性能优化

值得精读,展示了如何通过 Kernel 选择和数据类型布局优化来提升深度学习模型的精度和性能,同时保持了代码简洁性。

#23745 Use Cute-DSL NVFP4 quantization kernels

原始 PR · 作者 b8zhong · 合并时间 2026-05-11 15:40

性能优化 重要性 8.89 洞察度 5.00

SM100默认使用Cute-DSL NVFP4量化,性能提升

本PR值得关注其通过注册custom_op实现CUDA graph兼容的技巧,以及在不同后端间自动选择的设计模式。对于要修改量化后端的开发者,是很好的参考。

#24460 ci: remove Execute Notebooks workflow

原始 PR · 作者 Fridge003 · 合并时间 2026-05-11 15:26

基础设施 重要性 4.84 洞察度 2.00

删除 Execute Notebooks CI 工作流

无需深入阅读,该 PR 为简单的 CI 配置清理。但对于理解 CI 演进有参考价值,体现了团队对 CI 成本和必要性的权衡。

缺陷修复 重要性 6.45 洞察度 4.00

修复 chunk cache 在 FORCE_MISS 标志下崩溃

建议快速合并。这是一个明确的小范围 bugfix,修复了特定配置下的崩溃,测试覆盖到位,代码简洁。

缺陷修复 重要性 7.40 洞察度 6.00

兼容新旧 aiter fused_qk_rmsnorm API 修复 AMD DeepSeek 崩溃

值得精读。此 PR 展示了如何通过特性探测优雅地处理上游库 API 变更,避免破坏性升级。设计模式值得借鉴:保持调用侧接口不变,使用适配器模式兼容新旧 API。特别推荐给从事硬件后端集成或内核库依赖管理的工程师。

重构 重要性 7.16 洞察度 5.00

集中 EagleDraftInput hidden_states 形状决策

建议精读该 PR,了解 SGLang speculative decoding 中 hidden_states 的形状决定逻辑,以及如何通过类方法实现单一真相来源的设计模式。同时为理解后续 PR(#21058 相关)提供基础。

缺陷修复 重要性 9.18 洞察度 6.00

修复LTX-2/2.3扩散模型多GPU精度对齐与HQ两阶段路径

建议所有使用LTX-2/2.3模型进行推理和CI测试的团队仔细阅读此PR。其中关于CFG引导分支合并、Attention Backend选择、RoPE精度控制的决策值得在其它扩散模型推理框架中借鉴。

参与讨论