Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

kernel 相关 PR

2026-06-04
重构 重要性 7.28 洞察度 5.00

融合residual支持到batch-invariant RMS norm

值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。

2026-06-03

#42472 [Model Runner V2] Use FlashInfer sampler

原始 PR · 作者 njhill · 合并时间 2026-06-03 22:59

性能优化 重要性 7.29 洞察度 6.00

引入 FlashInfer 采样加速 top-k/top-p 路径

对于关注 V1 模型运行器性能的开发者,该 PR 展示了如何在实际系统中集成第三方采样内核并设计安全的回退条件,值得精读。建议在合并后补充针对新旧路径的测试,确保条件分支无遗漏。

#39968 [XPU] Add XPU block-scaled W8A8 fp8 path

原始 PR · 作者 xwu-intel · 合并时间 2026-06-03 20:16

功能 重要性 7.29 洞察度 6.00

XPU 新增块缩放 W8A8 FP8 内核路径

该 PR 是理解 vllm 内核选择体系如何扩展的典型例子,展示了添加新平台特定内核并设计 fallback 策略的完整流程。建议内核开发者和平台移植人员精读,尤其是 `xpu.py` 中类实现和 `linear/__init__.py` 中注册模式。

性能优化 重要性 8.24 洞察度 8.00

Triton内核加速CPU→GPU小块批量拷贝

建议精读。该PR展示了如何通过数据驱动的调优(阈值扫描、SM数量选择)将定制Triton内核应用于关键IO路径,并提供了详实的E2E基准验证。设计决策(如初始化时解析函数、缓冲复用)值得借鉴。

#44347 [Bugfix] Update TrtLLM MoE routing methods

原始 PR · 作者 wzhao18 · 合并时间 2026-06-03 17:56

缺陷修复 重要性 6.85 洞察度 5.00

修复 TrtLLM MoE 路由方法分类及 dtype 检查

建议尽快合入,以修复 CI 失败和模型兼容性问题。该 PR 展现了精细的路由方法分类调整,可精读 `get_routing_method_type` 的决策树逻辑,了解不同模型的路由模式。

功能 重要性 7.66 洞察度 5.00

启用 ROCm 的 per-token-group 量化内核

值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。

性能优化 重要性 5.84 洞察度 5.00

对 Triton Top-p 采样 Kernel 应用单次遍历 min_larger 查找和二分搜索,提速 25-40%

值得精读,尤其对 Triton kernel 开发者和采样优化感兴趣者。该 PR 展示了如何通过算法改动(三分→二分)和计算融合(单次遍历 min_larger)来平衡寄存器压力,同时修复潜在 bug。设计决策明确,benchmark 数据详实。