#25366 [auto-detect] match Ring-2.6/Ling XML kv tool-call format via vocab signature
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-21 14:34
添加 XML KV 格式的词汇表自动检测
推荐快速合并。这是一个设计优雅、测试完备的增量修复,通过简单的词汇特征显著提升兼容性,同时保持精确匹配。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-21 14:34
添加 XML KV 格式的词汇表自动检测
推荐快速合并。这是一个设计优雅、测试完备的增量修复,通过简单的词汇特征显著提升兼容性,同时保持精确匹配。
AMD CI 工作流清理与修复
对于 CI 基础设施维护人员值得精读,展示了如何系统地清理和修复 CI 工作流:识别功能性 bug、统一命名、对齐逻辑、补充输入参数。特别是 run_all_tests 和 continue_on_error 的串联设计值得借鉴。对于一般开发者了解 AMD CI 结构也有帮助。
原始 PR · 作者 whybeyoung · 合并时间 2026-05-21 14:29
修复 Rust 格式化检查失败
该 PR 属于基础设施维护,可快速合入。建议后续在 CI 中统一强制格式化检查,避免类似问题反复出现。
原始 PR · 作者 sushildubey171 · 合并时间 2026-05-21 14:02
为 XPU 添加 SiluMul 和 Rotary Embedding 前向路径
变更简单且逻辑清晰,建议合并。值得关注的设计决策是:将 XPU 的 silu_and_mul 导入与 HIP 共享同一条件分支,暗示了 `sgl_kernel` 对两者均支持的意图。
原始 PR · 作者 merrymercy · 合并时间 2026-05-21 14:01
修复 FlashInfer A2A token 容量双倍计数
此 PR 为针对 MoE 推理中 FlashInfer A2A dispatcher 的小型 bugfix,设计简洁,值得关注其默认值调整和注释中的空间计算解释。
修复 EPLB 冗余专家与 DeepEP Waterfill 冲突
值得精读。PR 修复了一个在冗余专家场景下的非明显 bug,展示了 EPLB 与 DeepEP Waterfill 之间的交互依赖。设计决策(如区分逻辑/物理 expert 计数、共享权重的槽位映射)对理解 MoE 系统具有参考价值。
支持 Gemma4 MoE NVFP4 模型推理
该 PR 值得精读,特别是 `FusedMoE.make_expert_params_mapping` 的复用模式以及 `get_activation_type` 的 gated/non-gated 抽象设计。权重加载部分的 per-expert 映射逻辑是值得关注的设计决策。建议在合并后补充单元测试覆盖新的映射路径。
修复 DSV4 cached_loc 在映射重建后未失效
值得精读,尤其是测试分层设计——从协议桩(stub)到崩溃回归再到端到端 KL 验证,展示了高质量的防御性编程。适合作为缓存失效类 bug 的修复范本。
参与讨论