合并 admission check 到 KV cache 分配,简化调度器
值得精读,展示了将 admission check 与分配逻辑合并以简化接口的设计模式;同时注意时序问题在类似场景中的潜在影响。
A high-throughput and memory-efficient inference and serving engine for LLMs
合并 admission check 到 KV cache 分配,简化调度器
值得精读,展示了将 admission check 与分配逻辑合并以简化接口的设计模式;同时注意时序问题在类似场景中的潜在影响。
Blackwell FP8分组量化寄存器内核,加速60%-2x
该 PR 值得精读,特别是 CUDA 寄存器优化和 shuffle 规约技术。评审中的三个高优先级问题展示了正确性与文档的平衡。后续同类优化可借鉴其 `alignas` 和 `int64_t` 的前置检查。
原始 PR · 作者 WoosukKwon · 合并时间 2026-05-01 07:28
删除自定义 bf16→fp32 GEMM,改用 torch.mm
该 PR 是清理自定义算子的好示例,展示了如何利用 PyTorch 原生功能替代手写 CUDA 扩展。对于希望减少自定义代码依赖的开发者有参考价值。建议验证环境中的 PyTorch 版本是否支持 `torch.mm(..., out_dtype=...)`。整体风险可控,可合入。
修复 Gemma 4 MoE 专家捕获器配置键不兼容
此 PR 值得快速合并,修复明确且影响范围小。建议未来在模型配置兼容性改进中考虑添加单元测试(如测试 `_get_num_experts_per_tok` 对不同配置的响应),避免类似回归。
为FlashInfer单边A2A添加BF16和MXFP8调度支持
本 PR 是 DeepSeek V4 性能优化系列的重要一环,值得 MoE 通信或量化相关开发者精读。关键设计决策包括:工作区尺寸参数化、推迟量化模式、通过修改 `expects_unquantized_inputs` 将量化职责从专家层移至通信层。review 中关于条件分支可达性的讨论也值得关注。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-01 06:20
修复 V2 模型运行器 CUDA Graph 计数器缺失
值得精读,尤其关注计数器放置位置的设计讨论。该 PR 展示了在多文件架构下如何正确维护跨模块计数器,以及处理 review 中不同设计意见的决策过程。
修复 indexer 缓存日志中的拼写错误
可直接合并,无需额外审查。
原始 PR · 作者 fxmarty-amd · 合并时间 2026-05-01 05:35
添加Triton内核加速NVFP4反量化和QDQ模拟
值得精读: - 学习 Triton 内核优化技巧:二进制树 E2M1 查找、2D tile 批处理、interleave 合并写。 - 理解设备间功能兼容性处理:通过 `current_platform.is_cuda_alike()` 动态切换实现。 - 关注社区反馈中对类型安全的关注,建议合并后进一步放宽 `global_scale` 类型以支持 float。
参与讨论