Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 06:20 同步状态：空闲下次计划：2026-06-01 07:20

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-06

#38184 [ROCm][CI] Run Kernels Core Operation Test On MI325 and mitigate flakiness

原始 PR · 作者 micah-wil · 合并时间 2026-04-06 09:42

基础设施重要性 4.00 洞察度 5.00

在MI325上启用内核核心测试，并跳过MI250上因量化精度导致的flaky测试。

建议关注此PR中处理硬件特定flakiness的策略，以及测试覆盖率的权衡。对于涉及跨平台测试的团队，可借鉴条件性跳过测试的方法，但需确保核心逻辑不受影响，并考虑长期维护成本。

rocmcitest

#39029 nano_nemotron_vl: fix tensor device mismatch exception when video profiling

原始 PR · 作者 netanel-haber · 合并时间 2026-04-06 06:23

缺陷修复重要性 3.00 洞察度 2.00

修复nano_nemotron_vl模型视频分析时张量设备不匹配异常。

该PR变更简单直接，无需精读。对于维护nano_nemotron_vl模型或处理设备同步问题的工程师，可以关注_create_final_video_embeddings方法中设备显式传递的模式，作为避免类似设备不匹配问题的参考。

bugfixmodelmulti-modality

#38956 [ci] Switch some CI jobs to H200 MIG slices

原始 PR · 作者 khluu · 合并时间 2026-04-06 04:26

基础设施重要性 3.00 洞察度 2.00

将25个通过验证的CI测试步骤切换到H200 MIG 18GB设备队列。

建议 CI/基础设施维护者审阅此 PR，以了解测试资源分配策略更新和依赖的外部变更；对于一般开发者，无需深入阅读代码，但可关注 CI 环境变化可能带来的测试执行时间或资源占用差异。

#38997 [Bug] Fix Import paths for `encoder_cudagraph` modules

原始 PR · 作者 Gregory-Pereira · 合并时间 2026-04-06 03:11

缺陷修复重要性 4.00 洞察度 3.00

修复cudagraph_mm_encoder启用时因模块导入路径错误导致的ModuleNotFoundError。

该PR值得快速浏览以了解cudagraph_mm_encoder功能的基础架构。重点关注： 1. encoder_cudagraph相关模块的组织结构。 2. Qwen3-VL模型如何实现SupportsEncoderCudaGraph协议。 3. 导入路径一致性在大型项目中的重要性。

bugfixqwencudagraph

#38992 [Bugfix] Fix invalid JSON in Gemma 4 streaming tool calls by stripping partial delimiters

原始 PR · 作者 Gregory-Pereira · 合并时间 2026-04-06 01:11

缺陷修复重要性 4.00 洞察度 3.00

修复Gemma 4流式工具调用中因部分分隔符泄漏导致的JSON解析错误。

该PR值得快速浏览，重点关注`_emit_argument_diff`方法中剥离字符集的扩展逻辑，这是修复的核心；同时可学习如何通过单元测试模拟流式边界情况。对于涉及工具调用或流式处理的开发者，此变更展示了处理部分令牌问题的典型模式。

bugfixtool-calling

2026-04-05

#38993 [Perf] Change Trtllm fp8 MoE to use Shuffled Weights and BlockMajorK Layout

原始 PR · 作者 wzhao18 · 合并时间 2026-04-05 22:54

性能优化重要性 6.00 洞察度 6.00

优化Trtllm fp8 MoE权重布局为Shuffled Weights和BlockMajorK，提升性能。

建议精读此PR，重点关注权重布局优化设计（如BlockMajorK布局选择）和对warmup逻辑的修复，这对理解vLLM中MoE性能调优和兼容性处理有参考价值。

performancequantizationmodel

#38990 [Bugfix][MoE] Fix 6-8% decode regression: prefer multi-stream shared expert overlap

原始 PR · 作者 voipmonitor · 合并时间 2026-04-05 22:28

缺陷修复重要性 6.00 洞察度 5.00

修复MoE模型TP-only配置下6-8%的解码性能回归，恢复多流并行执行共享专家层。

该PR值得精读，尤其是对于关注MoE性能优化的工程师。关键设计决策是“多流重叠优先于外部执行”的条件顺序调整，这反映了在TP-only配置下最大化并行性的优化思路。建议结合#35153理解回归引入的上下文。

bugfixperformancemodel

#38987 [Bugfix][Spec Decode] Fix extract_hidden_states for VLM models

原始 PR · 作者 abatilo · 合并时间 2026-04-05 17:41

缺陷修复重要性 6.00 洞察度 5.00

修复推测解码中extract_hidden_states对视觉语言模型配置处理的bug。

该PR值得精读，尤其是配置处理的设计决策：关注ExtractHiddenStatesConfig如何平衡扁平化与保留对象结构，以及测试用例如何模拟VLM配置。建议团队在处理嵌套模型配置时参考此模式。

bugfixspeculative-decodingmodel

第 199 / 253 页 · 共 2021 条

上一页 1 … 197 198 199 200 201 … 253 下一页