Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 21:47 同步状态：空闲下次计划：2026-06-13 22:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-23

#37550 [Bugfix] Fix CPU backend crash in KV cache block zeroing

原始 PR · 作者 DorBernsohn · 合并时间 2026-03-23 19:35

缺陷修复重要性 5.00 洞察度 3.00

修复 CPU 后端在零化 KV 缓存块时因 Triton GPU 内核导致的崩溃。

建议工程师快速浏览此 PR，重点关注 CPU 后端如何处理 KV 缓存无效位置，以及如何避免 GPU 内核调用。对于涉及 Triton 与 CPU 集成的开发者，此 PR 展示了简单而有效的设计决策。

bugfixcpu

#37784 [XPU][MoE Refactor] Refactor xpu mxfp4 support into oracle

原始 PR · 作者 jikunshang · 合并时间 2026-03-23 19:10

重构重要性 5.00 洞察度 5.00

将XPU MXFP4 MoE支持重构集成到oracle系统中。

建议工程师精读此PR，以理解MoE oracle的设计和XPU集成模式，特别关注性能权衡和测试覆盖。

refactorxpu

#37498 [Frontend][Responses API] Fix arrival_time recording for TTFT on initial request

原始 PR · 作者 qandrew · 合并时间 2026-03-23 17:58

缺陷修复重要性 5.00 洞察度 6.00

修复 responses API 中 arrival_time 记录错误，以准确测量 TTFT。

对于负责性能度量或 API 实现的工程师，建议精读此 PR 以理解 arrival_time 定义的重要性和当前修复。同时，关注 markmc 指出的其他问题，可能需要在后续 PR 中解决。

bugfixfrontenddocumentation

#32929 [FP8]add FP8 WoQ kernel abstraction.

原始 PR · 作者 jikunshang · 合并时间 2026-03-23 17:47

重构重要性 6.00 洞察度 6.00

为FP8权重仅量化（WoQ）添加内核抽象，集成Marlin内核以支持无FP8硬件的GPU。

建议技术管理者和工程师精读此PR，重点关注内核抽象设计决策（如`init_fp8_linear_kernel`的集中化）和Marlin集成方式，这有助于理解vLLM量化栈的演进方向。同时，需注意review中未完全解决的风险点，如块量化兼容性问题。

refactorperformancefp8

#37863 [Misc]Update gitignore

原始 PR · 作者 wangxiyuan · 合并时间 2026-03-23 16:14

基础设施重要性 1.00 洞察度 1.00

更新.gitignore忽略.python-version文件，避免贡献者本地环境冲突。

此PR变更琐碎，无需精读。对于新贡献者，可作为.gitignore配置的示例参考。

#36100 [ROCm] Fix fused_moe_fake signature mismatch and other AITER bugs

原始 PR · 作者 ChuanLi1101 · 合并时间 2026-03-23 15:48

缺陷修复重要性 5.00 洞察度 3.00

修复ROCm AITER ops中fused_moe_fake签名不匹配和其他错误，避免torch.compile崩溃。

这是一个关键bugfix，值得ROCm用户和涉及量化MoE或AITER ops的开发者快速review。建议关注签名匹配的一致性，并检查是否有其他类似签名不匹配问题在代码库中存在。

bugfixrocmrefactor

#37338 [Perf] [Bugfix] Fix Triton autotuning in inference for Qwen3.5

原始 PR · 作者 arpera · 合并时间 2026-03-23 15:37

缺陷修复重要性 6.00 洞察度 5.00

修复Qwen3.5模型中Triton autotuning缓存不匹配问题，消除推理时的autotuning延迟。

该PR值得精读，特别是对于关注Triton autotuning优化和dtype对齐的工程师。重点关注_warmup_prefill_kernels函数中的dtype匹配设计决策，以及如何通过测试验证性能改进，以应用于其他模型或内核优化场景。

bugfixperformancerefactor

#37810 [Bugfix] Store Qwen3Next A_log in fp32

原始 PR · 作者 effortprogrammer · 合并时间 2026-03-23 15:36

缺陷修复重要性 4.00 洞察度 4.00

修复Qwen3Next模型中A_log参数的精度问题，将其存储为fp32以匹配参考实现。

此PR值得快速浏览以了解精度对齐的决策过程和最小变更原则。对于工程师，关注review中关于dt_bias的讨论，可作为未来类似bugfix的参考案例。整体变更简单，无需深入代码细节，但建议跟进可能的dt_bias更新。

bugfixqwen

第 306 / 312 页 · 共 2496 条

上一页 1 … 304 305 306 307 308 … 312 下一页