MiMo-V2 添加 EPD 编码器分离支持
PR 设计合理,关键讨论已解决,CI 通过。建议合并,并后续补充自动化测试以覆盖 EPD 端到端流程。值得关注的设计点包括编码服务器钩子模式和按模型类型属性拆分,可作为其他模型接入 EPD 的范例。
SGLang is a high-performance serving framework for large language models and multimodal models.
MiMo-V2 添加 EPD 编码器分离支持
PR 设计合理,关键讨论已解决,CI 通过。建议合并,并后续补充自动化测试以覆盖 EPD 端到端流程。值得关注的设计点包括编码服务器钩子模式和按模型类型属性拆分,可作为其他模型接入 EPD 的范例。
清理 speculative decoding CI 测试日志
该 PR 值得合并,属于低风险的质量改进。建议后续修复 `print_output` 对 stream 模式的支持,以完全实现静默功能。
原始 PR · 作者 OrangeRedeng · 合并时间 2026-05-18 09:36
重构 DeepEP 调度器,引入结构化输出 dtype 控制
该 PR 值得精读,尤其是自动 dtype 检测函数的设计和量化配置传递方式。对于调度器重构部分,可以学习如何将分散的环境变量集中为结构化的枚举和服务器参数。建议关注全局环境变量问题的后续修复。
修复 AMX CPU GQA extend attention 概率布局错误
值得精读:展示了硬件特定 bug 的定位和修复方法,以及如何通过精确控制数据布局解决问题,对理解 AMX CPU 加速细节有帮助。
修复 NPU MLA KV pool 属性缺失及复制方法
建议通读,特别是 `get_cpu_copy` / `load_cpu_copy` 的覆写模式。对于需要在不同硬件上定制基类行为的场景有参考价值。Review 中关于变量命名统一的讨论值得关注,反映了 pipeline parallelism 下索引设计的关键细节。
移除 ModelWorkerBatch 中间层,简化批量数据流
值得精读,尤其关注 `_overlap_forward_isolation` 的上下文管理器设计、一次性覆盖模式以及跨流张量保活策略。可作为架构重构的参考案例。
原始 PR · 作者 jy-song-hub · 合并时间 2026-05-18 09:01
修复 UniPC 和 FlowUniPC 调度器崩溃
值得合入,修复明确,改动量小,风险低。建议阅读 PR body 中的手动测试脚本以理解验证方法,并考虑后续补充自动化测试。
Gemma4 默认注意力后端切换到 trtllm_mha
该 PR 变更简洁高效,性能收益显著且经过充分讨论和验证。值得关注其性能基准测试方法和 trtllm_mha 后端在 Gemma4 上的兼容性处理。对于使用 Blackwell GPU 的 Gemma4 用户,建议及时合并此变更。
参与讨论