修复Req中array类型token-id拼接导致的TypeError
建议合并,并后续考虑在类型检查或文档中明确`Req.origin_input_ids`应为`array`。团队可受益于阅读本PR中的设计权衡讨论,特别是类型统一策略的选择以及性能优化方案。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复Req中array类型token-id拼接导致的TypeError
建议合并,并后续考虑在类型检查或文档中明确`Req.origin_input_ids`应为`array`。团队可受益于阅读本PR中的设计权衡讨论,特别是类型统一策略的选择以及性能优化方案。
在 KV 写入路径添加越界探测
值得合并。这是一个低风险、高 ROI 的调试增强,在 spec 测试中已证明有效。建议在更广泛的 CI 中逐步启用 `SGLANG_ENABLE_ASYNC_ASSERT`,以最大化收益。
修复 SWA 准入预算少算 HiCache load-back 消耗
建议精读此 PR,尤其是 _swa_budget_for_req 的预算逻辑和 MatchResult 拆分的设计。layering violation 可作为后续重构的引导。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-07 10:46
分析结果尚未生成。
分析结果尚未生成。
分析结果尚未生成。
原始 PR · 作者 yueming-yuan · 合并时间 2026-06-07 09:24
修复 DeepSeek V4 DP 注意力 + TP MoE 下 reduce-scatter 问题
该 PR 值得精读,以理解 DeepSeek V4 独特的手写 `_use_tp_moe_gather` 路径以及 DP 注意力与 TP MoE 交互时的数据流问题。对于关注 DeepSeek V4 模型推理或大规模并行训练的工程师有参考价值。建议合并或已合并。
修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配
建议合并并安排 review。此 PR 是一个防御性修复,代码简洁清晰,风险极低,值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。
参与讨论