Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 04:17 同步状态：空闲下次计划：2026-06-01 05:17

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#39123 [ROCm] Remove unused IS_FNUZ parameter from reshape_and_cache_shuffle_kernel

原始 PR · 作者 Bortlesboat · 合并时间 2026-04-07 15:18

cleanup 重要性 3.00 洞察度 3.00

移除ROCm Flash Attention后端中未使用的IS_FNUZ参数，消除冗余平台检查与编译开销。

该PR变更简单，是典型的死代码清理，无需深入精读。值得关注的点是：它展示了如何识别和移除未使用的tl.constexpr参数以避免不必要的JIT编译开销，这对性能敏感的内核开发有借鉴意义。

rocmcleanupattention

#39053 [ROCm][CI] Fix test repo-root assumptions

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-07 13:36

基础设施重要性 3.00 洞察度 3.00

修复ROCm CI环境中集成测试脚本因缺少Git元数据导致的仓库根目录查找失败问题。

该PR变更直接且必要，值得快速合并。对于关注CI基础设施和跨平台测试兼容性的工程师，可关注这种基于脚本位置解析仓库根目录的模式，作为处理无Git元数据环境的参考方案。

rocmkv-connectorci

#38504 [Kernels][MoE] Fix legacy_routing to use bitmatrix-based routing path

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-07 10:57

缺陷修复重要性 7.00 洞察度 6.00

修复MoE路由中HIP平台整数除法导致的bitmatrix错误，避免GPU内存访问故障。

建议技术管理者和工程师精读此PR，关注pack_bitmatrix的valid guard设计和平台条件化对齐策略，这些是处理跨平台差异的典型模式。同时，可参考相关MoE refactor PR以了解路由演进脉络。

rocmbugfixperformance

#39115 [BugFix][MRV2] Fix cuda event reuse race

原始 PR · 作者 njhill · 合并时间 2026-04-07 08:21

缺陷修复重要性 5.00 洞察度 4.00

修复MRV2中CUDA事件重用导致的竞态条件，避免性能下降。

该PR值得精读，以理解MRV2中CUDA事件管理的设计权衡。关注点：事件重用与性能开销的平衡，以及未来池化优化的可能性。

bugfixperformance

#38960 [MoE Refactor] Split up compressed_tensors_moe.py

原始 PR · 作者 bnellnm · 合并时间 2026-04-07 08:07

重构重要性 9.00 洞察度 5.00

将压缩张量 MoE 量化方法从单个文件拆分为多个独立文件，提升代码组织性。

该 PR 值得精读，特别是对于关注代码模块化设计的开发者。可以学习如何将大型文件拆分为小模块，以及如何处理导入依赖。关注基类 `CompressedTensorsMoEMethod` 和工厂方法 `get_moe_method` 的设计。

refactormoequantization

#35733 [NVFP4] Support NVFP4 dense models from `modelopt` and `compressed-tensors` on AMD Instinct MI300, MI355X and Hopper through emulation

原始 PR · 作者 fxmarty-amd · 合并时间 2026-04-07 06:18

功能重要性 6.00 洞察度 6.00

为AMD Instinct等硬件添加NVFP4模型的仿真后端支持，修复正确性问题。

建议技术管理者关注此PR对硬件生态扩展的价值，工程师可精读nvfp4_utils.py中的后端选择算法和nvfp4_emulation_utils.py的仿真实现，以理解量化模型跨平台适配的设计权衡。

rocmquantizationfeature

#38819 [Attention][MLA] Re-enable FA4 as default MLA prefill backend

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-07 05:51

缺陷修复重要性 5.00 洞察度 3.00

将MLA预填充后端默认值从TRT-LLM改回FA4，恢复性能优势。

该PR变更简单，但涉及核心注意力后端选择，建议关注： 1. 了解FA4与TRT-LLM后端的性能差异和适用场景。 2. 跟踪MLA模型在SM100设备上的测试结果，确保修复彻底。 3. 对于性能敏感的应用，可精读PR #34732和#38690以了解基准测试和修复细节。

attentionbugfixperformance

#39098 [MRV2] Fix hanging issue with DeepSeek V3.2 by setting `skip_attn=False`

原始 PR · 作者 WoosukKwon · 合并时间 2026-04-07 03:55

缺陷修复重要性 5.00 洞察度 4.00

修复MRV2在DeepSeek V3.2模型上的挂起问题，确保注意力元数据正确准备。

该PR值得精读，重点关注：1. _dummy_run中skip_attn默认值变更的设计决策；2. 注意力元数据准备与CUDA图模式的交互逻辑；3. review中关于断言与错误处理的讨论，可作为错误处理最佳实践的参考。

bugfixdeepseekperformance

第 196 / 253 页 · 共 2021 条

上一页 1 … 194 195 196 197 198 … 253 下一页