Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 20:41 同步状态：空闲下次计划：2026-06-13 21:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-19

#42991 [CI/Build] Bump nvidia-cutlass-dsl to 4.5.1

原始 PR · 作者 arpera · 合并时间 2026-05-19 07:58

基础设施重要性 2.16 洞察度 2.00

bump cutlass-dsl 至 4.5.1 修复 Blackwell GDN ICE

建议快速合并。PR 简单、测试充分、风险低，修复了明确的 JIT 编译崩溃问题。

ci/buildnvidiabugfix

#43010 Add parallel drafting to v2 model runner unsupported features

原始 PR · 作者 shanjiaz · 合并时间 2026-05-19 07:39

缺陷修复重要性 5.42 洞察度 4.00

禁用 V2 模型运行器的并行草稿解码

该 PR 是必需的 bug 修复，内容简洁、风险低。值得所有涉及 V2 模型运行器和推测解码的团队成员关注。它为 V2 并行草稿功能的后续实现提供了一个清晰的追踪点。

bugfixspeculative-decodingv2

#42774 [Perf] Padded nvfp4 quant kernel to remove additional copy, 2.4%~5.7% e2e performance improvement

原始 PR · 作者 yewentao256 · 合并时间 2026-05-19 07:38

性能优化重要性 6.98 洞察度 5.00

padded nvfp4量化kernel消除额外copy

值得精读。该PR展示了如何通过将后处理步骤融合到CUDA kernel中来消除冗余内存访问，是典型的性能优化案例。对于从事量化推理、CUDA kernel优化或CUTLASS集成工作的开发者具有很好的参考价值。建议关注其设计权衡：何时适合将padding内联到kernel，以及如何保持向后兼容。

performancekernelnvidia

#43006 [Refactor] Extract shared coerce_to_schema_type utility from Minimax M2 tool parser

原始 PR · 作者 sfeng33 · 合并时间 2026-05-19 05:55

重构重要性 7.94 洞察度 6.00

提取共享的 coerce_to_schema_type 类型转换工具函数

值得精读。展示了如何安全提取公共工具函数，尤其类型别名映射设计、优先级处理、以及测试覆盖策略。对涉及工具调用的开发者，了解此函数有助于统一处理类型转换。

refactortool-callingtest

#42885 [Perf][MLA] Enable FULL cudagraph capture for TRITON_MLA decode

原始 PR · 作者 haosdent · 合并时间 2026-05-19 05:29

性能优化重要性 6.40 洞察度 5.00

TRITON_MLA 启用 FULL CUDAGraph

建议精读。该 PR 展示了一个极简但高效的优化模式：通过覆写 MetadataBuilder 的 _cudagraph_support 即可启用 FULL CUDAGraph，收益显著且风险低。对于其他使用 MLA 或类似自定义 attention backends 的开发者具有参考价值。

performancev1nvidia

#42889 [Refactor] Remove dead code

原始 PR · 作者 yewentao256 · 合并时间 2026-05-19 04:41

重构重要性 8.58 洞察度 4.00

删除 CompressedTensors24 及相关死代码

该 PR 是典型的死代码清理实践，值得阅读了解如何安全地移除已有废弃机制的代码。对于正在维护大型代码库的开发者，可以借鉴其分步删除逻辑：先确保代码已被条件守卫或 raise 替代，再删除文件并更新所有引用。

refactorcleanupquantization

#42529 Tier offload followup

原始 PR · 作者 ronensc · 合并时间 2026-05-19 03:41

重构重要性 9.00 洞察度 6.00

重构二级 tier 工厂模式及示例 tier，修复关键 bug

- 推荐开发者阅读 `factory.py` 和 `manager.py` 了解新的注册模式和最小参考实现。 - 建议为 `SecondaryTierFactory.register_tier` 增加注册时的健壮性检查（如模块能否成功导入）。 - 值得关注的设计决策：用实例属性取代抽象方法传递类型标识，以及工厂引入惰性加载，降低了模块耦合。 - 如果团队计划开发新的二级 tier（如远端存储、GPU 层次等），可以此 PR 为基础模式。

refactorv1kv-connector

#42880 [ROCm] Guard AITER GDN decode fast path by layout

原始 PR · 作者 tuukkjs · 合并时间 2026-05-19 02:56

缺陷修复重要性 5.96 洞察度 7.00

修复 Qwen3.5 在 ROCm 上 GDN 精度回归

值得精读，尤其是对 ROCm 平台上 Triton 内核布局假设敏感的推理引擎开发者。它展示了一个典型的风险：当优化内核假设特定数据布局时，不匹配会导致静默精度崩溃。建议在集成测试中增加对多种布局的端到端验证。

bugfixrocmmodel

第 108 / 312 页 · 共 2496 条

上一页 1 … 106 107 108 109 110 … 312 下一页