修复 chunk cache 在 FORCE_MISS 标志下崩溃
建议快速合并。这是一个明确的小范围 bugfix,修复了特定配置下的崩溃,测试覆盖到位,代码简洁。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 chunk cache 在 FORCE_MISS 标志下崩溃
建议快速合并。这是一个明确的小范围 bugfix,修复了特定配置下的崩溃,测试覆盖到位,代码简洁。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-11 14:42
为EPD模块添加CODEOWNERS配置
该PR属于基础设施配置调整,建议合并。无需进一步审查。
兼容新旧 aiter fused_qk_rmsnorm API 修复 AMD DeepSeek 崩溃
值得精读。此 PR 展示了如何通过特性探测优雅地处理上游库 API 变更,避免破坏性升级。设计模式值得借鉴:保持调用侧接口不变,使用适配器模式兼容新旧 API。特别推荐给从事硬件后端集成或内核库依赖管理的工程师。
集中 EagleDraftInput hidden_states 形状决策
建议精读该 PR,了解 SGLang speculative decoding 中 hidden_states 的形状决定逻辑,以及如何通过类方法实现单一真相来源的设计模式。同时为理解后续 PR(#21058 相关)提供基础。
修复LTX-2/2.3扩散模型多GPU精度对齐与HQ两阶段路径
建议所有使用LTX-2/2.3模型进行推理和CI测试的团队仔细阅读此PR。其中关于CFG引导分支合并、Attention Backend选择、RoPE精度控制的决策值得在其它扩散模型推理框架中借鉴。
修复 SANA 模型在 NPU 和 GPU 上的执行错误
建议精读,尤其是 Gemma2 注意力掩码的重构(从浮点到布尔)和 DPM scheduler 的参数规范化,这是跨后端的通用改进。GEGLU 融合算子的实现方式可作为其他激活函数 NPU 后端的参考。
原始 PR · 作者 OrangeRedeng · 合并时间 2026-05-11 13:32
修复 Wan 模型在 NPU 上的量化方案识别
该 PR 修复了关键 regression,改动虽小但涉及核心量化配置路径,值得精读。设计上通过 reverse_param_names_mapping 解耦内部命名与规范命名的做法值得关注,可在未来支持更多量化模型时复用。
支持 bs>1 的可中断 CUDA 图执行
值得精读。该 PR 体现了深刻的技术洞察:通过重新划定 CUDA 图捕获边界,使图与 batch size 解耦,是使图化预填充支持多请求的关键设计。代码改动简洁(仅 1 文件 +84/-57),但思路值得借鉴。建议关注后续改进 layer_model 解析的多模型兼容性和测试覆盖。
参与讨论