#44251 [Perf] Add tuned selective_state_update configs for H200 and RTX PRO …
原始 PR · 作者 Majid-Taheri · 合并时间 2026-06-03 14:59
为H200和RTX PRO 6000 Blackwell添加调优SSM内核配置
建议合并。变更安全且性能收益明确,可立即改善相关GPU用户的使用体验。后续可关注Triton版本升级后的配置有效性。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 Majid-Taheri · 合并时间 2026-06-03 14:59
为H200和RTX PRO 6000 Blackwell添加调优SSM内核配置
建议合并。变更安全且性能收益明确,可立即改善相关GPU用户的使用体验。后续可关注Triton版本升级后的配置有效性。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-03 14:43
分层缓存加速 ROCm Docker 构建
建议 CI 和基础设施团队精读,重点关注构建缓存分层策略、ccache vs sccache 选择、artifact 模式设计。对于仅关注算法和模型的开发者可略过。
启用 ROCm 的 per-token-group 量化内核
值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。
支持推理模型基准测试的思考模式
该 PR 值得精读,特别是对负责基准测试和推理性能分析的工程师。其设计简洁、聚焦,通过最小的 CLI 改动解决了一个实际的基准测试盲区。建议关注后续是否扩展支持更多数据集。
原始 PR · 作者 william-rom · 合并时间 2026-06-03 13:17
修复 tool_call arguments 为 "null" 字符串时的崩溃
此 PR 值得合并,问题定位清晰,修复方式简单安全,测试充分。对于关注工具调用稳定性的团队,可直接参考此修复。
修复 DeepSeek-V4 初始化时 CUTLASS fmin 兼容错误
可快速合入的精确修复。无需额外精读,但可关注后续是否在依赖管理层面彻底解决(如添加 cu13 extra)。
为 FS Tier Manager 添加跨进程共享文档
此 PR 为小范围文档改进,理解价值有限。但其中关于 `PYTHONHASHSEED` 的说明对于理解 vLLM 跨实例 KV 缓存共享机制有参考意义。
修复 parser 测试与 CI 触发路径
建议 PR 阅读者关注测试与 CI 触发路径的一致性,类似的源文件-测试触发关系应在添加新模块时一并配置。
参与讨论