Hopper 上默认使用 Triton MoE 后端
建议合并。该 PR 基于实际基准测试数据,将 Hopper 上 MoE 后端的默认选择从 FlashInfer 切换为 Triton,性能提升明确,风险低。值得关注的是 Hopper 特定优化和基准测试方法,可推广到类似决策中。
A high-throughput and memory-efficient inference and serving engine for LLMs
Hopper 上默认使用 Triton MoE 后端
建议合并。该 PR 基于实际基准测试数据,将 Hopper 上 MoE 后端的默认选择从 FlashInfer 切换为 Triton,性能提升明确,风险低。值得关注的是 Hopper 特定优化和基准测试方法,可推广到类似决策中。
统一推理与工具调用解析到 Parser.parse()
值得精读,因为统一解析入口是前端架构重构的关键步骤,为后续支持更多解析组合打下基础。需关注作者关于“匹配 streaming”的设计决策及其潜在的兼容性影响。
原始 PR · 作者 izhuhaoran · 合并时间 2026-06-02 14:07
修复 V2 模型运行器中 attn 元数据 max_seq_len 传递错误
值得精读,尤其是了解如何将 `DefaultModelState` 中的优化模式推广到其他 ModelState 实现,以及 speculative decoding 中 draft max_seq_len 的动态管理方式。设计决策清晰,代码差异小但影响正确性。
原始 PR · 作者 izhuhaoran · 合并时间 2026-06-02 13:56
修复 V2 模型运行器未清零混合+fp8 KV缓存新块的 bug
修复 Gemma4-MM ViT 量化线性层兼容性
值得精读。设计上选择通用递归替换而非模型特定补丁,体现了模块化封装思想。`BitsAndBytesWeightParameter` 的 dtype 修复技巧可复用。建议关注后续 LoRA 准确性修复。
Profile vision encoder CUDA graph pool memory
此 PR 值得精读,尤其关注 `profile_cudagraph_memory` 中如何集成 encoder 部分以及 graph pool 的生命周期设计。它展示了在已有的 CUDA graph 框架中扩展新模块的典型模式:通过临时 manager 进行 profile,通过持久 manager 进行 runtime,并利用 graph pool 隔离。对多模态模型开发者和 CUDA graph 维护者有重要参考价值。
原始 PR · 作者 chaojun-zhang · 合并时间 2026-06-02 11:09
修复 XPU 上 FP8 量化少传 2 个参数的问题
此 PR 为必要的 bugfix,改动小而精,值得合入。建议在合入后验证 XPU 上 FP8 量化功能正常。
修复滑动窗口块在卸载失败后变脏的问题
建议审核者重点审查 `_update_req_states` 中的全量遍历逻辑及其对性能的影响,确认设计权衡合理。同时鼓励在滑动窗口功能相关的集成测试中运行本 PR 的新测试用例。总体修复思路正确,值得精读。
参与讨论