Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-23

#37873 [Bugfix] RoBERTa position_id accumulation in CUDA graph padding region

原始 PR · 作者 yanghui1-arch · 合并时间 2026-03-23 22:59

缺陷修复重要性 6.00 洞察度 6.00

修复RoBERTa模型在CUDA图模式下位置ID累积导致的崩溃问题。

建议工程师精读此PR，理解CUDA图模式下tensor重用和模型特定逻辑的交互。重点关注设计决策：选择在model runner中修复而非模型层，以预防未来类似bug。变更虽小，但揭示了优化场景下的微妙陷阱，值得学习以增强代码健壮性。

bugfixperformancemodel

#37808 [Mypy] Fix mypy for `vllm/config`

原始 PR · 作者 yewentao256 · 合并时间 2026-03-23 22:34

重构重要性 4.00 洞察度 3.00

修复 vllm/config 模块的 mypy 类型检查错误，提升代码质量。

建议维护 config 模块的工程师精读此 PR，了解类型修正的具体模式，特别是 type ignore 的使用场景和 None 值处理。对于一般开发者，快速浏览以熟悉 mypy 修复策略即可，无需深入分析。

refactorperformance

#37533 [ROCm] fix sleep mode not releasing GPU memory problem on ROCm

原始 PR · 作者 aaab8b · 合并时间 2026-03-23 21:07

缺陷修复重要性 6.00 洞察度 5.00

修复 ROCm 平台上睡眠模式无法释放 GPU 内存的问题。

对于从事 ROCm 平台开发或内存管理的工程师，值得精读此 PR，了解针对 ROCm 的内存释放变通方法。关注虚拟地址保持的设计决策，以及 review 中提到的潜在重构点。

bugfixrocmperformance

#37877 [Bugfix][LoRA] Fix incorrect LoRA Log

原始 PR · 作者 jeejeelee · 合并时间 2026-03-23 19:42

缺陷修复重要性 3.00 洞察度 3.00

修复 LoRA 日志输出中的模块列表错误。

变更简单，主要值得关注 review 讨论中的性能优化建议，可作为代码风格和性能考量的学习案例，无需深入阅读代码逻辑。

bugfixperformance

#37550 [Bugfix] Fix CPU backend crash in KV cache block zeroing

原始 PR · 作者 DorBernsohn · 合并时间 2026-03-23 19:35

缺陷修复重要性 5.00 洞察度 3.00

修复 CPU 后端在零化 KV 缓存块时因 Triton GPU 内核导致的崩溃。

建议工程师快速浏览此 PR，重点关注 CPU 后端如何处理 KV 缓存无效位置，以及如何避免 GPU 内核调用。对于涉及 Triton 与 CPU 集成的开发者，此 PR 展示了简单而有效的设计决策。

bugfixcpu

#37784 [XPU][MoE Refactor] Refactor xpu mxfp4 support into oracle

原始 PR · 作者 jikunshang · 合并时间 2026-03-23 19:10

重构重要性 5.00 洞察度 5.00

将XPU MXFP4 MoE支持重构集成到oracle系统中。

建议工程师精读此PR，以理解MoE oracle的设计和XPU集成模式，特别关注性能权衡和测试覆盖。

refactorxpu

#37498 [Frontend][Responses API] Fix arrival_time recording for TTFT on initial request

原始 PR · 作者 qandrew · 合并时间 2026-03-23 17:58

缺陷修复重要性 5.00 洞察度 6.00

修复 responses API 中 arrival_time 记录错误，以准确测量 TTFT。

对于负责性能度量或 API 实现的工程师，建议精读此 PR 以理解 arrival_time 定义的重要性和当前修复。同时，关注 markmc 指出的其他问题，可能需要在后续 PR 中解决。

bugfixfrontenddocumentation

#32929 [FP8]add FP8 WoQ kernel abstraction.

原始 PR · 作者 jikunshang · 合并时间 2026-03-23 17:47

重构重要性 6.00 洞察度 6.00

为FP8权重仅量化（WoQ）添加内核抽象，集成Marlin内核以支持无FP8硬件的GPU。

建议技术管理者和工程师精读此PR，重点关注内核抽象设计决策（如`init_fp8_linear_kernel`的集中化）和Marlin集成方式，这有助于理解vLLM量化栈的演进方向。同时，需注意review中未完全解决的风险点，如块量化兼容性问题。

refactorperformancefp8

第 262 / 269 页 · 共 2148 条

上一页 1 … 260 261 262 263 264 … 269 下一页