Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 16:47 同步状态:空闲 下次计划:2026-06-07 17:47

PR 列表

更多筛选
2026-03-31

#20864 [Perf]Remove H2D for Qwen3.5 SpecV2

原始 PR · 作者 Chen-0210 · 合并时间 2026-03-31 11:54

性能优化 重要性 6.00 洞察度 5.00

优化Qwen3.5 SpecV2推测解码路径,移除不必要的Host-to-Device传输以提升性能。

建议技术管理者和工程师精读此PR,关注其性能优化技巧和基准测试方法。设计决策中值得学习的是如何识别并移除隐式H2D传输,以及通过条件分支优化特定场景的性能。

缺陷修复 重要性 2.00 洞察度 1.00

更新mooncake自定义内存池类型常量以匹配INTRA_NODE_NVLINK。

此PR变更简单,不值得精读,但可以作为示例了解如何维护常量一致性。关注点是确保相关PR #18259的变更已被正确集成。

#21714 Fix human-eval CI install on 5090 runners

原始 PR · 作者 alisonshao · 合并时间 2026-03-31 09:53

缺陷修复 重要性 3.00 洞察度 3.00

修复CI中human-eval安装失败,通过固定setuptools版本为70.0.0。

这是一个简单的CI修复,对于理解setuptools版本管理和CI依赖问题有帮助,但无需精读。建议快速浏览以了解类似问题的解决模式,可作为CI配置优化的小技巧参考。

性能优化 重要性 5.00 洞察度 6.00

通过多进程并行编译JIT内核,将自定义AllReduce测试时间从300秒减半至150秒。

该PR值得精读,特别是多进程编译的设计决策和JIT内核标识符的调整。关注`_precompile_kernels()`函数的实现,以及如何平衡编译并行度和资源开销。同时,注意review中未处理的RuntimeError风险,建议在类似场景中采纳评论建议以增强代码鲁棒性。

缺陷修复 重要性 5.00 洞察度 3.00

移除FlashInfer wheel缓存清理逻辑,避免CI作业间版本冲突导致的重复下载。

此PR变更简单,值得快速审查以理解CI缓存策略调整,重点关注移除清理逻辑的权衡。建议阅读review评论,了解未解决的潜在问题,未来可能需补充wheel选择鲁棒性和磁盘清理机制。

缺陷修复 重要性 6.00 洞察度 5.00

修复 AMD 平台 gpt-oss 模型解码注意力 kernel 选择错误,提升 40% 性能。

该 PR 值得精读,因为它解决了一个显著的性能回归问题,且变更涉及核心注意力路径。工程师应关注 `forward_decode` 函数的修改,理解 kernel 选择机制,并考虑是否有类似问题存在于其他硬件后端或模型中。

#21673 [AMD][MoRI] bump MoRI to v0.1.0

原始 PR · 作者 jhchouuu · 合并时间 2026-03-31 05:44

基础设施 重要性 3.00 洞察度 4.00

更新ROCm Dockerfile中MoRI依赖从提交哈希到标签v0.1.0,影响构建过程。

该PR值得快速阅读以了解基础设施维护中的依赖管理实践。建议关注review中关于构建可重复性的讨论,这反映了在易用性和确定性之间的常见权衡,可用于团队最佳实践参考。

参与讨论