回归测试改用 ModelScope 国际站
该 PR 是简单的 CI 基础设施调整,无需深入精读,但可供关注 CI 稳定性的团队参考。
A high-throughput and memory-efficient inference and serving engine for LLMs
回归测试改用 ModelScope 国际站
该 PR 是简单的 CI 基础设施调整,无需深入精读,但可供关注 CI 稳定性的团队参考。
原始 PR · 作者 wangxingran222 · 合并时间 2026-05-10 10:44
修复多模态模型 SP 和 PP+SP residual 处理 bug
值得精读的设计:residual 切片使用 `tp_rank` 感知的索引,以及 `sync_and_gather_intermediate_tensors` 中通过 all-gather 保证 SP + PP 兼容性。此外,团队对三种方案的权衡分析展现了良好的设计思维。建议关注后续 #36823 和 MoE SP 相关 PR。
修复 NemotronV3 解析器 whitespace-only 内容
该 PR 变更简单,可直接合并。建议后续添加对应 edge case 的单元测试,防止回归。
原始 PR · 作者 baonudesifeizhai · 合并时间 2026-05-10 09:13
为 AsyncTP 添加 NVFP4 all-gather GEMM 融合路径
推荐精读,尤其关注 `collective_fusion.py` 中 `FlashInferAllGatherFP4Pattern` 的 `pattern` 与 `replacement` 设计,以及 `sequence_parallelism.py` 中 NVFP4 量化与序列平行的整合方式。对推理性能优化感兴趣的同学可以关注 reduce-scatter 融合的后续进展。
禁用路由专家路径修复
该 PR 变更简洁明确,建议合入。但由于测试未在 CI 中运行,建议后续跟进确保测试覆盖(如将 `test_routed_experts_capture.py` 加入测试套件)。值得关注的设计决策是:通过 early return 和条件守卫双重确保禁用的正确性,而非仅依赖一处判断。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-10 07:39
移除旧版 KVConnector 构造函数兼容层
值得精读,特别是对分布式 KV 传输子系统感兴趣的工程师。本次 PR 示范了如何有计划地清理技术债务——先发出废弃警告,等待合理窗口后移除兼容层。`factory.py` 中从 warning 到 error 的升级策略值得借鉴。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-10 05:46
Nixl util 懒加载重构
该 PR 值得阅读,演示了 Python 中利用 `__getattr__` 实现模块级懒加载的常用模式,且重构简洁清晰,适合作为类似依赖延迟初始化的参考。
原始 PR · 作者 juhi10071998 · 合并时间 2026-05-10 05:15
ModelOpt NVFP4 W4A16 量化支持,使用 Marlin 内核
值得精读 `ModelOptNvFp4Config.__init__` 中的分发逻辑和 `ModelOptNvFp4W4A16LinearMethod` 的 `create_weights`/`process_weights_after_loading` 设计,展示了如何以最小改动扩展新量化格式并兼容旧 checkpoint。后续可关注 CLI 路由和 lm_head 支持的 follow-up PR。
参与讨论