为B200 GPU添加NVFP4量化扩散模型CI测试路径。
建议CI维护者和测试工程师精读此PR,关注CI job配置、测试套件设计以及性能基线更新策略,这些决策对后续硬件扩展有借鉴意义。
SGLang is a high-performance serving framework for large language models and multimodal models.
为B200 GPU添加NVFP4量化扩散模型CI测试路径。
建议CI维护者和测试工程师精读此PR,关注CI job配置、测试套件设计以及性能基线更新策略,这些决策对后续硬件扩展有借鉴意义。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-02 11:27
移除导致夜间测试崩溃的Kimi K2.5 MTP变体,保留TP8和TP8+DP8配置。
该PR值得快速浏览,以了解CI测试配置的调整。关注点:1) 移除MTP变体的具体原因(OOM和未知错误);2) 新增TP8+DP8变体的配置;3) 测试覆盖范围的变化。对于负责CI或测试的工程师,建议检查是否有其他测试需要类似调整。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-02 11:19
将多模态服务器测试超时从60分钟延长至90分钟,避免测试在输出结果时超时中断。
该PR变更简单直接,无需深入代码审查。建议关注点:1) 了解多模态测试耗时接近超时的根本原因,是否反映了性能瓶颈或测试用例设计问题;2) 监控延长超时后CI任务的执行时间,确保资源使用在可接受范围内。
基于实际CI运行时数据更新57个测试的预估时间,优化测试分区平衡。
对于负责CI维护和测试分布的工程师,此PR值得快速浏览以了解时间估计更新。关注`test_disaggregation_decode_offload.py`中`disabled`参数的更改,这反映了CI配置的最佳实践。
新增VLM TP=4 CI测试并优化MMMU评估prompt与解析器,提升测试覆盖与准确性。
建议工程师精读此PR,关注prompt和解析器的设计决策,学习如何优化LLM评估以提升准确性和性能;对于测试维护者,此PR展示了扩展CI测试套件和集成新模型配置的方法,值得借鉴。
原始 PR · 作者 ShangmingCai · 合并时间 2026-04-02 10:54
将mooncake-transfer-engine依赖版本从0.3.10升级到0.3.10.post1。
这是一个简单的依赖版本更新,无需深入阅读代码。对于技术管理者,可关注mooncake-transfer-engine的版本演进是否解决了已知问题(如历史PR #19890中提到的异构TP KV传输相关)。对于工程师,仅当需要调试CI环境中的mooncake相关问题时才需要参考此变更。
修复MXFP8 Triton路径中Torch Dynamo重编译导致的PCG编译时间过长问题。
该PR值得精读,特别是对于关注量化性能优化和Torch Dynamo集成的工程师。值得关注的设计决策包括使用`@register_custom_op`装饰器来创建不透明包装器以减少Dynamo守卫,这是一种针对PyTorch编译性能问题的实用技巧。建议检查相关测试以确保变更不会引入隐藏问题。
集成Runai Model Streamer,支持直接从对象存储加载模型,提升加载性能并减少本地存储需求。
建议技术管理者和核心工程师精读此PR,重点关注`RunaiModelStreamerLoader`类的实现,学习流式加载和分布式处理的设计模式。同时,审查代码重复修复和测试策略,确保集成稳定性。
参与讨论