#21414 fix(MiMo-V2-Flash): add mimo reasoning parser
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-02 00:47
修复MiMo-V2-Flash模型推理解析错误,避免API响应中message.content为空。
建议精读以理解推理解析器的设计模式,关注硬编码与通用解析逻辑的权衡;对于类似模型支持,可参考此PR作为案例。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-02 00:47
修复MiMo-V2-Flash模型推理解析错误,避免API响应中message.content为空。
建议精读以理解推理解析器的设计模式,关注硬编码与通用解析逻辑的权衡;对于类似模型支持,可参考此PR作为案例。
新增Ascend NPU上Ring-SP性能基准文档,展示扩散模型在NPU上的并行加速效果。
该PR为文档类变更,无需深入代码精读。建议NPU用户或对扩散模型性能优化感兴趣的工程师浏览新增文档,关注其提供的基准测试方法和加速效果,可作为NPU环境配置和性能评估的参考。
原始 PR · 作者 DarkSharpness · 合并时间 2026-04-01 23:40
优化 JIT RMSNorm 内核,支持隐藏尺寸至 16384,提升 Blackwell 架构性能。
建议工程师精读 `rmsnorm.cuh` 中的新内核实现,了解 Pre-Blackwell 和 Blackwell 架构的优化策略(如向量加载和共享内存使用);同时关注 `bench_norm.py` 中的性能基准,以评估在不同隐藏尺寸和批处理大小下的性能权衡。设计决策如隐藏尺寸支持扩展和内核选择逻辑值得关注,可作为 JIT 内核优化的参考案例。
为扩散模型组件级准确性添加CI测试框架,提升验证覆盖。
此PR值得精读,因为它展示了一个复杂的测试框架设计,涉及分布式设置、权重对齐和钩子架构。关注点包括:钩子如何适配不同组件的forward签名、权重对齐逻辑处理参数名映射和融合张量、以及内存管理策略(如分阶段执行)对大型模型的支持。
新增NPU完整测试流水线,解决测试架构问题以支持版本发布前的全面测试。
建议NPU相关开发者和测试工程师精读此PR,重点关注`.github/workflows/full-test-npu.yml`中的流水线设计,学习如何通过参数化配置实现多环境测试。该PR展示了测试架构的优化模式,值得借鉴以实现其他硬件平台的无缝集成。
修复H200 GPU上会话控制测试的CI稳定性,通过继承CustomTestCase并禁用CUDA图优化。
该PR值得快速浏览,重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试,可借鉴此方法确保计算路径一致性。
移除AsyncMMDataProcessor包装器,简化多模态数据处理逻辑。
建议工程师精读此PR,了解多模态处理器异步设计的历史问题和简化决策。特别关注llava.py中添加的超时实现,以及tokenizer_manager.py中直接调用异步方法的变更,以理解如何平衡设计简洁性与功能需求。
更新Ascend NPU文档,移除已弃用参数并添加Qwen3-235B模型长序列示例。
对于使用Ascend NPU平台的开发者,建议关注新增的Qwen3-235B长序列示例,以获取最新配置实践。PR本身为文档更新,无需代码审查,但文档变更值得验证以确保内容准确。
参与讨论