#21714 Fix human-eval CI install on 5090 runners
原始 PR · 作者 alisonshao · 合并时间 2026-03-31 09:53
修复CI中human-eval安装失败,通过固定setuptools版本为70.0.0。
这是一个简单的CI修复,对于理解setuptools版本管理和CI依赖问题有帮助,但无需精读。建议快速浏览以了解类似问题的解决模式,可作为CI配置优化的小技巧参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 alisonshao · 合并时间 2026-03-31 09:53
修复CI中human-eval安装失败,通过固定setuptools版本为70.0.0。
这是一个简单的CI修复,对于理解setuptools版本管理和CI依赖问题有帮助,但无需精读。建议快速浏览以了解类似问题的解决模式,可作为CI配置优化的小技巧参考。
原始 PR · 作者 DarkSharpness · 合并时间 2026-03-31 08:56
通过多进程并行编译JIT内核,将自定义AllReduce测试时间从300秒减半至150秒。
该PR值得精读,特别是多进程编译的设计决策和JIT内核标识符的调整。关注`_precompile_kernels()`函数的实现,以及如何平衡编译并行度和资源开销。同时,注意review中未处理的RuntimeError风险,建议在类似场景中采纳评论建议以增强代码鲁棒性。
原始 PR · 作者 alisonshao · 合并时间 2026-03-31 07:47
移除FlashInfer wheel缓存清理逻辑,避免CI作业间版本冲突导致的重复下载。
此PR变更简单,值得快速审查以理解CI缓存策略调整,重点关注移除清理逻辑的权衡。建议阅读review评论,了解未解决的潜在问题,未来可能需补充wheel选择鲁棒性和磁盘清理机制。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-31 07:30
修复 AMD 平台 gpt-oss 模型解码注意力 kernel 选择错误,提升 40% 性能。
该 PR 值得精读,因为它解决了一个显著的性能回归问题,且变更涉及核心注意力路径。工程师应关注 `forward_decode` 函数的修改,理解 kernel 选择机制,并考虑是否有类似问题存在于其他硬件后端或模型中。
更新ROCm Dockerfile中MoRI依赖从提交哈希到标签v0.1.0,影响构建过程。
该PR值得快速阅读以了解基础设施维护中的依赖管理实践。建议关注review中关于构建可重复性的讨论,这反映了在易用性和确定性之间的常见权衡,可用于团队最佳实践参考。
原始 PR · 作者 ZhaiFeiyue · 合并时间 2026-03-31 05:37
添加环境变量配置KV传输重叠槽位,提升解码吞吐量。
该PR变更聚焦于特定性能优化,实现直接,适合需要了解PD解聚模式KV传输机制的工程师精读。建议关注环境变量的使用场景和测试结果,以评估在生产部署中的适用性。
原始 PR · 作者 adityavaid · 合并时间 2026-03-31 04:22
修复NPU MoE权重因维度不对齐导致的FRACTAL_NZ格式崩溃,优雅回退到ND格式。
对于NPU开发者和MoE模型用户,此PR值得精读,特别是_is_nz_aligned函数的对齐规则实现和npu_format_cast中的条件回退逻辑,这体现了硬件优化与兼容性的设计权衡。
修复NemotronH混合模型分段CUDA图捕获问题,提升推理性能约17%。
建议关心CUDA图优化、混合模型支持或向后兼容性设计的工程师精读此PR。虽然变更简单(仅2行代码),但展示了在处理多样化模型架构时的设计权衡,值得学习如何维护系统兼容性并优化性能。
参与讨论