Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-05
缺陷修复 重要性 6.80 洞察度 6.00

启用 spec topk>1 的 busy 内存检查

建议精读,涉及 speculative decoding 内存管理的关键不变检查,以及测试基础设施中 MRO 合并环境覆盖的可复用模式。修复的身份比较问题是一个典型的 dataclass 陷阱,值得注意。

缺陷修复 重要性 5.25 洞察度 4.00

支持 compressed-tensors WNA16 非对称权重量化

值得精读 dispatch 逻辑,了解如何与 vLLM 对齐。尽管测试被移除,但核心逻辑变更经过 review,且 kernel 路径有间接覆盖。建议未来在类似修复中保留最小单元测试。

缺陷修复 重要性 5.16 洞察度 3.00

修复 AMD CI 上 aiter 贪婪采样越界 token 问题

此 PR 值得快速合并。变更简洁、目标明确、风险可控。建议合并后跟踪 aiter 上游修复进度,待修复后移除该环境和相关测试变通。同时,建议根据 hubertlu-tw 的建议增强 `test_aiter_greedy_sample_amd.py` 测试覆盖,防止类似回归再次发生。

文档 重要性 2.94 洞察度 2.00

Gemma 4 cookbook 新增 Docker 安装说明

可直接合并。建议后续关注 Docker 镜像的更新频率,以及是否需要同步更新其他 cookbook 的 Docker 安装说明。

2026-06-04
功能 重要性 7.29 洞察度 5.00

为 AITER fused_moe 添加可选 kwargs 和 no_combine 支持

建议快速合并。PR 设计清晰,测试全面。关键设计决策(functools.cache 特征探测、条件 kwargs 转发、空输入适配)值得其他 runner 参考。

#26941 Plug mamba_extra_buffer ping-pong slot leaks

原始 PR · 作者 sshleifer · 合并时间 2026-06-04 21:46

缺陷修复 重要性 6.01 洞察度 5.00

修复 Mamba 额外缓冲区 ping-pong 槽位泄漏

值得精读,特别是流式会话和内存管理的逻辑。`save_from_req` 和 `free_mamba_cache` 中的所有权转移与引用清零模式值得在其他资源释放路径中参考。建议添加针对 `extra_buffer` + `overlap_schedule` 的集成测试。

缺陷修复 重要性 5.82 洞察度 4.00

修复 HiSparse 在 PP decode 路径上的兼容性

建议合并。该 PR 以极小代价修复了一个关键的兼容性缺陷,改动经过严格验证且逻辑清晰。可考虑后续跟进 `process_retract_queue` 中的同类问题。

参与讨论