Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-20 22:31 同步状态:空闲 下次计划:2026-04-20 23:31

PR 列表

已合并 986 · 已分析 986
更多筛选
2026-04-02

#21767 [CI] add nvfp4 ci test for b200;

原始 PR · 作者 Prozac614 · 合并时间 2026-04-02 11:31

基础设施 重要性 4.00 洞察度 4.00

为B200 GPU添加NVFP4量化扩散模型CI测试路径。

建议CI维护者和测试工程师精读此PR,关注CI job配置、测试套件设计以及性能基线更新策略,这些决策对后续硬件扩展有借鉴意义。

基础设施 重要性 3.00 洞察度 2.00

移除导致夜间测试崩溃的Kimi K2.5 MTP变体,保留TP8和TP8+DP8配置。

该PR值得快速浏览,以了解CI测试配置的调整。关注点:1) 移除MTP变体的具体原因(OOM和未知错误);2) 新增TP8+DP8变体的配置;3) 测试覆盖范围的变化。对于负责CI或测试的工程师,建议检查是否有其他测试需要类似调整。

基础设施 重要性 3.00 洞察度 2.00

将多模态服务器测试超时从60分钟延长至90分钟,避免测试在输出结果时超时中断。

该PR变更简单直接,无需深入代码审查。建议关注点:1) 了解多模态测试耗时接近超时的根本原因,是否反映了性能瓶颈或测试用例设计问题;2) 监控延长超时后CI任务的执行时间,确保资源使用在可接受范围内。

基础设施 重要性 5.00 洞察度 4.00

基于实际CI运行时数据更新57个测试的预估时间,优化测试分区平衡。

对于负责CI维护和测试分布的工程师,此PR值得快速浏览以了解时间估计更新。关注`test_disaggregation_decode_offload.py`中`disabled`参数的更改,这反映了CI配置的最佳实践。

测试 重要性 6.00 洞察度 5.00

新增VLM TP=4 CI测试并优化MMMU评估prompt与解析器,提升测试覆盖与准确性。

建议工程师精读此PR,关注prompt和解析器的设计决策,学习如何优化LLM评估以提升准确性和性能;对于测试维护者,此PR展示了扩展CI测试套件和集成新模型配置的方法,值得借鉴。

基础设施 重要性 2.00 洞察度 1.00

将mooncake-transfer-engine依赖版本从0.3.10升级到0.3.10.post1。

这是一个简单的依赖版本更新,无需深入阅读代码。对于技术管理者,可关注mooncake-transfer-engine的版本演进是否解决了已知问题(如历史PR #19890中提到的异构TP KV传输相关)。对于工程师,仅当需要调试CI环境中的mooncake相关问题时才需要参考此变更。

缺陷修复 重要性 5.00 洞察度 6.00

修复MXFP8 Triton路径中Torch Dynamo重编译导致的PCG编译时间过长问题。

该PR值得精读,特别是对于关注量化性能优化和Torch Dynamo集成的工程师。值得关注的设计决策包括使用`@register_custom_op`装饰器来创建不透明包装器以减少Dynamo守卫,这是一种针对PyTorch编译性能问题的实用技巧。建议检查相关测试以确保变更不会引入隐藏问题。

功能 重要性 8.00 洞察度 7.00

集成Runai Model Streamer,支持直接从对象存储加载模型,提升加载性能并减少本地存储需求。

建议技术管理者和核心工程师精读此PR,重点关注`RunaiModelStreamerLoader`类的实现,学习流式加载和分布式处理的设计模式。同时,审查代码重复修复和测试策略,确保集成稳定性。

参与讨论