修复 --decrypted-draft-config-file 未生效的问题
本 PR 修改简单但定位准确,值得阅读的要点包括:如何通过 `kwargs` 机制向配置加载过程注入额外参数;以及可变默认参数的实际取舍方式。建议在类似功能中统一使用 `None` 默认值以提升安全性。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 --decrypted-draft-config-file 未生效的问题
本 PR 修改简单但定位准确,值得阅读的要点包括:如何通过 `kwargs` 机制向配置加载过程注入额外参数;以及可变默认参数的实际取舍方式。建议在类似功能中统一使用 `None` 默认值以提升安全性。
修复 NPU 上 DeepSeek 模型加载时 quant_config.packed_modules_mapping 被覆盖
该 PR 是一个精确的 bugfix,值得精读以理解量化配置的契约。设计上引入多态方法而非条件判断,是良好的重构方向。建议为新增方法补充单元测试。
更新 Step-3.7-Flash Docker 镜像标签
该 PR 是常规的文档维护,无需深入审查。对于关注 Step-3.7-Flash 部署的读者,可了解镜像标签的演进。
为注意力后端添加模块级单元测试套件
建议所有关注注意力后端的开发者仔细阅读本 PR 的测试架构,特别是参考实现的设计和 SWA decode 规则分类。后续新增后端时,务必在 dense_attention.py 中注册 SWA decode 规则,并按照已有模式添加测试文件。KNOWN_FAILURES.md 也是必读文档,用于理解当前后端限制。
新增 Step-3.7-Flash 多模态 MoE 模型支持
值得精读,特别是模型组合方式(视觉编码器 + MoE 语言模型)以及多模态特征提取的实现。建议关注 review 中提到的批处理问题,并优先补全单元测试和修复文档中的镜像版本。
原始 PR · 作者 alisonshao · 合并时间 2026-05-29 07:52
修复 /rerun-test 的目录递归与多 pool 调度问题
建议 CI 维护者和经常使用 `/rerun-test` 的开发者阅读此 PR,了解 glob 递归处理和多 pool 扇出的设计;尤其是 `_extract_runner_configs` 返回列表这一变更,可能影响依赖该函数的其他调用方。
精简端到端测试,简单LB算法移至单元测试
值得精读,尤其关注以下设计决策: 1. 通过 `__new__` 绕过复杂初始化的测试模式,适合需要测试内部调度逻辑但不愿启动完整服务器的场景。 2. 模块文档显式列出了测试合约(`_make_controller` 注入的属性),便于后续维护。 3. 状态不一致回归守卫(`TestStatusAwarenessInconsistency`)是一种良好的设计意图锁定手段,值得在其他调度器测试中推广。
修复非 NVLink 环境 CustomAllReduceV2 选择与崩溃
值得精读,因为展示了如何在已有默认行为变更后优雅地修复兼容性问题,是理解 SGLang 分布式通信层的良好入口。设计决策如惰性初始化、前置能力检查可复用。
参与讨论