#26725 【NPU】add MiniMax2.5 best practice docs
原始 PR · 作者 shadowxz109 · 合并时间 2026-06-01 10:09
为 NPU 新增 MiniMax2.5 最佳实践文档
文档清晰实用,建议合并。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 shadowxz109 · 合并时间 2026-06-01 10:09
为 NPU 新增 MiniMax2.5 最佳实践文档
文档清晰实用,建议合并。
将 xeon PR 测试超时从 36 分钟增加到 60 分钟
该 PR 属于简单的运维调整,无需深入审查。值得注意的设计决策是主动为特定硬件 runner 调整超时参数,以适配其实际性能特征,这是一种务实的 CI 管理方式。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-06-01 06:15
修复 Mooncake Store 键值重复标记 bug
建议快速合并。该修复逻辑明确、改动精炼,且已有 reviewer `stmatengss` 批准。同时建议后续可将 `gemini-code-assist[bot]` 提出的切片优化(`keys[:kv_pages]`)作为微优化单独提交,尽管当前场景下影响不大。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-31 20:31
将 allocator.py 拆分为 allocator/ 子包
该 PR 是模块拆分的最佳实践,适合关注代码组织和重构策略的开发者学习。它展示了如何在不破坏现有 API 的情况下逐步重构,并保留 Git 历史。推荐精读以了解子包拆分和向后兼容的导入模式。
跳过 CI 中 flaky 的 Mamba extra_buffer 测试
该 PR 为临时权宜之计,变更微小且合理。建议阅读者关注关联问题(PR#15829)的修复进展,并在修复后及时恢复测试。
将 token_type_ids 计算挪入 ForwardBatch
值得精读。该 PR 展示了如何通过重构保持 ScheduleBatch 的职责纯洁性(只做调度编排),将前向相关的设备张量构建下沉到 ForwardBatch,是流管理和职责分离的良好实践。但需注意 review 中提出的性能建议尚未解决,可在后续跟进。
原始 PR · 作者 whybeyoung · 合并时间 2026-05-31 15:31
修复多 tokenizer 下批请求输出路由 503
值得立即合并。该修复定位准确、改动量小且修复了关键的生产阻塞问题。建议后续增加对 multi-http-worker 模式下批处理请求的集成测试,防止类似回归。
原始 PR · 作者 brucechanglongxu · 合并时间 2026-05-31 10:11
修复 DP attention 下 routed-experts 缓冲区溢出
建议尽快合并。这是一个明确正确的 bugfix,改动量小且风险低,解决了一个在 DP attention 路径下可导致静默数据损坏或崩溃的问题。值得关注的是作者将修复从大型 PR #23999 中独立拆分出来的做法,降低了集成风险。
参与讨论