#44388 [Doc] Update ViT CUDA graph interfaces
原始 PR · 作者 shen-shanshan · 合并时间 2026-06-03 16:21
更新 ViT CUDA 图文档,同步代码变更
此 PR 是纯粹的文档同步更新,对大多数工程师无需精读。但若您正在使用或开发 ViT CUDA 图系统,建议查看此文档以了解最新的 API 和流程。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 shen-shanshan · 合并时间 2026-06-03 16:21
更新 ViT CUDA 图文档,同步代码变更
此 PR 是纯粹的文档同步更新,对大多数工程师无需精读。但若您正在使用或开发 ViT CUDA 图系统,建议查看此文档以了解最新的 API 和流程。
修复 HF chat template 渲染的数字精度和字段影子问题
本 PR 值得精读,尤其关注以下要点:(1)如何在不修改 MiniJinja 核心的前提下,通过自定义 Object 和 pycompat 后门解决字段与方法冲突的设计模式;(2)全局 `serde_json` 特性调整时的依赖影响评估思路;(3)测试用例设计中对渲染精度妥协的明确标注。对于同样使用 MiniJinja 渲染 HF 模板的其他项目,此方案具有直接参考价值。
Rust 前端新增动态 LoRA 管理端点
该 PR 安全设计充分,并发控制合理,值得团队精读。建议后续补充 CI 中端到端测试,并关注路径验证的 TOCTOU 缓解。
Rust 服务端新增路由器扩展钩子
值得阅读以了解 Rust 前端 API 的演进方向。该 PR 展示了如何以最小侵入的方式添加扩展点,设计决策(不暴露内部状态、闭包组合)值得借鉴。
原始 PR · 作者 varun-sundar-rabindranath · 合并时间 2026-06-03 15:03
移除 HMA 模型在 Tiering Offload 中的限制
该 PR 本身改动极小(仅删除一行),但具有较大的功能影响。建议开发者和测试人员关注新增的兼容模型列表,并对 PR body 中列出的失败模型进行进一步调查。作为“解除封锁”类变更,值得快速合并,但后续应跟进失败模型的 root cause。
原始 PR · 作者 Majid-Taheri · 合并时间 2026-06-03 14:59
为H200和RTX PRO 6000 Blackwell添加调优SSM内核配置
建议合并。变更安全且性能收益明确,可立即改善相关GPU用户的使用体验。后续可关注Triton版本升级后的配置有效性。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-03 14:43
分层缓存加速 ROCm Docker 构建
建议 CI 和基础设施团队精读,重点关注构建缓存分层策略、ccache vs sccache 选择、artifact 模式设计。对于仅关注算法和模型的开发者可略过。
启用 ROCm 的 per-token-group 量化内核
值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。
参与讨论