Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-07

#24553 [Misc] Fix breaking weight checker test

原始 PR · 作者 Fridge003 · 合并时间 2026-05-07 06:42

缺陷修复 重要性 2.81 洞察度 2.00

修复权重检查器端到端测试的 CI 标签

本 PR 属于 CI 基础设施的微调,无需精读。但反映了权重检查器测试对资源需求的变化,值得注意后续是否需要对测试本身进行优化以减少资源消耗。

缺陷修复 重要性 6.52 洞察度 7.00

修复 qkv_proj LoRA 在 KV 头复制时的缓冲区尺寸错误

此 PR 值得精读,尤其是有 LoRA 和 TP 相关开发需求的工程师。它展示了一个典型的分布式训练/推理中因张量布局理解错误导致的 bug 及其修复模式,对理解 `QKVParallelLinear` 的 KV 头复制机制和 LoRA 权重切片非常有帮助。设计决策(在缓冲分配和切片两端保持一致的每 rank 维度计算)是可靠的。

基础设施 重要性 3.50 洞察度 2.00

上调 MiMo 测试预计时长避免超时

该 PR 是必要的 CI 配置修复,可快速合并。建议合并后观察至少一轮 CI 运行,确认超时问题是否解决。若仍偶发超时,可考虑进一步上调或分包(将两个测试类拆分到不同 est_time 条目)。

功能 重要性 8.07 洞察度 5.00

增强可观测性:细化队列时间桶、新增指标、修复吞吐计算

建议对可观测性系统负责的工程师精读此 PR。特别关注 decode_throughput 修复背景和 uncached prompt tokens 指标设计。对于运维团队,建议验证日志解析器是否兼容新格式。整体变更价值高,值得引入。

#23335 Fix diffusion fallback guards and validation

原始 PR · 作者 BBuf · 合并时间 2026-05-07 00:05

缺陷修复 重要性 5.72 洞察度 4.00

修复 diffusion 回退路径与形状校验

改动干净、测试聚焦,适合快速合入。作为 kernel 防护最佳实践示例值得存档,但无需深入精读。若团队有 NPU 部署或 diffusion 自定义 kernel 开发,建议参考此模式在其他 kernel 中补充类似输入校验。

2026-05-06
缺陷修复 重要性 5.55 洞察度 5.00

修复已清除条目恢复为 Failed 的状态污染

值得精读。虽然改动极小,但体现了处理异步竞态的典型模式:在状态机中,当一个条目已被清除后,禁止用终点状态(Failed)重新创建。这种模式在分布式系统中具有普遍参考价值。同时建议检查 `update_status` 的其他调用点是否也需要类似的防护。

缺陷修复 重要性 5.51 洞察度 4.00

修复 cp_all_gather 缓冲区未注册对称内存

值得快速合并。这是一个明确的遗漏修复,逻辑简单,风险低。开发者可关注 #22914 重构后的对称内存接口一致性;reviewer 可参考讨论中关于预分配缓冲池的策略。

参与讨论