启用 spec topk>1 的 busy 内存检查
建议精读,涉及 speculative decoding 内存管理的关键不变检查,以及测试基础设施中 MRO 合并环境覆盖的可复用模式。修复的身份比较问题是一个典型的 dataclass 陷阱,值得注意。
SGLang is a high-performance serving framework for large language models and multimodal models.
启用 spec topk>1 的 busy 内存检查
建议精读,涉及 speculative decoding 内存管理的关键不变检查,以及测试基础设施中 MRO 合并环境覆盖的可复用模式。修复的身份比较问题是一个典型的 dataclass 陷阱,值得注意。
原始 PR · 作者 ilia-iliev · 合并时间 2026-06-05 04:15
支持 compressed-tensors WNA16 非对称权重量化
值得精读 dispatch 逻辑,了解如何与 vLLM 对齐。尽管测试被移除,但核心逻辑变更经过 review,且 kernel 路径有间接覆盖。建议未来在类似修复中保留最小单元测试。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-05 03:53
修复 AMD CI 上 aiter 贪婪采样越界 token 问题
此 PR 值得快速合并。变更简洁、目标明确、风险可控。建议合并后跟踪 aiter 上游修复进度,待修复后移除该环境和相关测试变通。同时,建议根据 hubertlu-tw 的建议增强 `test_aiter_greedy_sample_amd.py` 测试覆盖,防止类似回归再次发生。
Gemma 4 cookbook 新增 Docker 安装说明
可直接合并。建议后续关注 Docker 镜像的更新频率,以及是否需要同步更新其他 cookbook 的 Docker 安装说明。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-05 03:01
Mamba 预取长度截断至可用主机 KV 大小
值得关注,尤其是使用 HiCache + Mamba 模型的用户。设计上参考了 HiRadixCache 的做法,属于鲁棒性改进。建议精读 `prefetch_from_storage` 方法中的截断逻辑。
为 AITER fused_moe 添加可选 kwargs 和 no_combine 支持
建议快速合并。PR 设计清晰,测试全面。关键设计决策(functools.cache 特征探测、条件 kwargs 转发、空输入适配)值得其他 runner 参考。
修复 Mamba 额外缓冲区 ping-pong 槽位泄漏
值得精读,特别是流式会话和内存管理的逻辑。`save_from_req` 和 `free_mamba_cache` 中的所有权转移与引用清零模式值得在其他资源释放路径中参考。建议添加针对 `extra_buffer` + `overlap_schedule` 的集成测试。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-06-04 21:37
修复 HiSparse 在 PP decode 路径上的兼容性
建议合并。该 PR 以极小代价修复了一个关键的兼容性缺陷,改动经过严格验证且逻辑清晰。可考虑后续跟进 `process_retract_queue` 中的同类问题。
参与讨论