修复多节点设置下FlashInfer allreduce融合后端选择问题,避免hang。
对于涉及分布式训练或多节点部署的工程师,此PR值得精读,以理解FlashInfer allreduce后端选择策略和兼容性处理。关注 `_resolve_fi_ar_backend()` 函数的设计决策,以及如何平衡性能与兼容性。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复多节点设置下FlashInfer allreduce融合后端选择问题,避免hang。
对于涉及分布式训练或多节点部署的工程师,此PR值得精读,以理解FlashInfer allreduce后端选择策略和兼容性处理。关注 `_resolve_fi_ar_backend()` 函数的设计决策,以及如何平衡性能与兼容性。
原始 PR · 作者 gronsti-amd · 合并时间 2026-03-27 03:01
修复ROCm后端paged_mqa_logits_module的lru_cache失效,提升性能。
建议快速审查此PR,以理解lru_cache的正确使用方式。关注设计决策:确保缓存函数在模块级别定义以避免作用域问题。对于工程师,这是一个学习Python装饰器和性能优化的好例子,值得精读其简单但有效的修复思路。
修复 ROCm 夜间发布管道中的未绑定变量错误并移除无效部分缓存逻辑。
该 PR 值得 CI 维护者和 ROCm 开发者关注,尤其是缓存逻辑的简化决策。建议精读 review 讨论,评估是否应重新添加 `--push` 标志以恢复缓存机制,并监控构建性能变化。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-27 02:33
修复 ROCm 测试容器中 GPU 架构检测,避免 JIT 编译所有架构,提升测试效率。
对于从事 CI/CD 或 ROCm 集成的工程师,此 PR 值得一读以了解如何优化环境变量管理以激活自动检测逻辑。重点关注环境变量覆盖的策略和脚本稳定性的改进点,如避免 grep 命令的风险。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-27 01:44
为ROCm测试环境添加uv pip compile工作流以生成锁文件。
建议ROCm和CI相关工程师精读此PR,重点关注排除列表的设计决策、验证步骤的实现,以及未来uv工具更新的优化可能。对于其他开发者,可快速浏览以了解vLLM依赖管理流程的演变。
原始 PR · 作者 jennyyyyzhen · 合并时间 2026-03-27 01:33
修复ROCM后端在混合模型下KV缓存非连续内存访问错误,避免注意力输出NaN。
该PR值得精读,尤其关注Triton内核中处理非连续内存的通用模式。设计决策亮点:采用传递stride而非仅第一维stride,以预防未来其他维度非连续导致的静默错误。建议团队审查其他类似内核是否存在相同假设,并优先修复shuffle路径问题。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-27 00:51
在AMD MI355 GPU上添加Qwen3.5模型评估测试的CI条目。
对于关心ROCm CI测试或Qwen模型的工程师,此PR值得快速浏览以了解测试配置;对于其他人员,无需深入阅读。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-27 00:46
修复 conch 内核在 3D 输入下的崩溃,通过重塑为 2D 以适应 GEMM 操作。
此 PR 值得快速 review 和合并,因为它是简单 bugfix;建议关注重塑逻辑是否正确处理各种输入形状,并参考 machete 内核的实现以确保一致性。
参与讨论