#44603 fix: pad dummy run query_start_loc
原始 PR · 作者 UranusSeven · 合并时间 2026-06-05 15:43
修复 dummy run 中 query_start_loc 填充不足
值得快速合入,但建议补充单元测试覆盖 dummy run 的 query_start_loc 填充行为,防止回归。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 UranusSeven · 合并时间 2026-06-05 15:43
修复 dummy run 中 query_start_loc 填充不足
值得快速合入,但建议补充单元测试覆盖 dummy run 的 query_start_loc 填充行为,防止回归。
修复 test_invocations 因新版 openai SDK 的不稳定失败
值得快速合并的 bugfix。虽改动简单,但解决了因外部依赖升级引起的测试不稳定问题,提升了 CI 可靠性。
修复 Rust 前端增量解码器 UTF-8 边界崩溃
建议立即合并,此修复解决了一个严重的生产环境稳定性问题,代码改动小且风险低。
修复 wait_for_completion 文档字符串
可直接合并,无需深入审查。该 PR 展示了社区对文档准确性的关注,值得鼓励。
使用 workspace manager 替换 ROCm 稀疏索引器动态分配
建议相关开发者仔细阅读,尤其是 workspace manager 的使用模式,以及如何在不影响 `torch.compile` 的情况下预留内存。对于 ROCm 稀疏索引器的维护者,这是一次重要的对齐。
原始 PR · 作者 hanlin12-AMD · 合并时间 2026-06-05 14:45
集成 Aiter hipBLASLt GEMM 在线调优与测试
推荐 ROCm 相关开发者精读。该 PR 展示了如何在 vLLM 内核选择系统中集成第三方库 kernel 的模式:通过 `is_supported`/`can_implement` 门控、`process_weights_after_loading` 预处理权重、`apply_scaled_mm` 执行计算。环境变量组合条件检查的设计值得借鉴(平台检查 + 多个 flag 组合)。fake impl 的维度正确性对 torch.compile 至关重要。
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-06-05 13:14
禁用因网络策略不可用的CPU兼容性测试
该PR无需精读,属于运维层面的临时修复。值得关注的点是:团队采用了注释而非删除的方式保留配置,体现了良好的可恢复性设计。
PP-aware KV connector 握手聚合与中间输出
建议精读,尤其关注 `EngineTransferInfo` 和 `TransferTopology` 的键变更,以及基类默认实现中的校验逻辑。设计简洁,没有过度抽象,值得借鉴。
参与讨论