Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 23:05 同步状态：空闲下次计划：2026-06-01 00:05

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#28443 [feat]: make DCP error msg clearer

原始 PR · 作者 WorldExplored · 合并时间 2026-04-10 13:27

功能重要性 5.16 洞察度 4.00

改进DCP不支持的错误信息，明确提示用户尝试不同后端或禁用DCP。

该PR值得快速浏览以了解错误信息增强的设计决策，特别是如何将用户指导融入错误消息中。关注`cp_utils.py`中错误信息的重构，它展示了提升用户体验的简单但有效方法。

featuredocumentation

#39182 [KV Offload] Implement `shutdown()` in `OffloadingConnector` and related classes

原始 PR · 作者 ronensc · 合并时间 2026-04-10 13:06

功能重要性 6.00 洞察度 7.00

为KV offloading连接器添加shutdown方法，确保引擎关闭时资源被清理。

建议工程团队精读此PR，特别是vllm/v1/kv_offload/worker/cpu_gpu.py中的GPU传输同步实现和资源清理模式，可作为资源管理最佳实践的参考。

kv-connectorfeaturecleanup

#39312 [Mergify] Update model vendor auto-label rules

原始 PR · 作者 DarkLight1337 · 合并时间 2026-04-10 12:25

基础设施重要性 3.00 洞察度 2.00

更新Mergify自动标签规则，新增Mistral模型标签并优化现有模型文件匹配路径。

该PR属于常规基础设施维护，变更逻辑清晰，无需深入技术分析。建议团队关注自动标签规则的准确性，定期审查以匹配项目结构变化。对于负责CI/CD或仓库维护的工程师，可快速浏览以了解规则更新。

#39388 Add EXAONE-4.5

原始 PR · 作者 lkm2835 · 合并时间 2026-04-10 11:53

功能重要性 6.00 洞察度 6.00

新增对EXAONE-4.5-33B视觉语言模型的支持，包括基础模型和推测解码集成。

建议技术管理者和工程师精读此PR，重点关注模型集成设计（如基于Qwen2_5_VL的复用模式）、推测解码适配方式，以及review中讨论的初始化正确性和性能优化决策。对于维护多模态模型的开发者，了解`_mark_tower_model`的使用场景尤为关键。

modelfeaturespeculative-decoding

#38571 [BugFix] Fix OOB read in CUTLASS grouped GEMM with epilogue

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-10 11:52

缺陷修复重要性 6.00 洞察度 5.00

修复CUTLASS分组GEMM尾核中的越界读取，避免非法内存访问。

建议精读此PR以了解CUTLASS尾核中的内存访问优化和形状一致性处理。关注静态断言和切片策略的设计，这对类似内核开发和bug调试有借鉴意义。

bugfixnvidiakernel

#32662 feat(cpu): add CPU support for draft model speculative decoding

原始 PR · 作者 ganeshr10 · 合并时间 2026-04-10 11:49

功能重要性 6.00 洞察度 6.00

为 CPU 平台添加草稿模型推测解码支持，通过 C++ 实现替代 Triton 内核。

该 PR 值得精读，尤其是 C++ 实现中的 OpenMP 并行化设计和猴子补丁集成模式，展示了跨平台内核抽象的技术权衡。建议关注 csrc/cpu/spec_decode_utils.cpp 和 vllm/v1/worker/cpu_model_runner.py 中的设计决策。

speculative-decodingcpufeature

#38244 [CT][FP8][Marlin] refactor CompressedTensorsW8A16Fp8 to use kernel abstraction

原始 PR · 作者 jikunshang · 合并时间 2026-04-10 09:58

重构重要性 6.00 洞察度 6.00

重构W8A16-FP8压缩张量以使用内核抽象，修复块量化bug并提升代码复用性。

建议精读此PR，重点关注内核抽象设计（如init_wfp8_a16_linear_kernel与现有choose_scaled_mm_linear_kernel的对比）、bug修复细节（块量化scale处理）和共享映射的实现，以理解vLLM量化架构的演进方向。对于维护量化代码的工程师，此PR提供了可复用的模式。

quantizationrefactorrocm

#38214 [Feature] Add auto-detection for reasoning_config when only reasoning_parser is set

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-10 09:36

功能重要性 6.00 洞察度 6.00

为推理配置添加自动检测功能，简化用户设置推理边界令牌。

建议精读此 PR，特别关注 `initialize_token_ids` 方法的设计和验证逻辑的更新，以理解推理功能配置的自动检测机制和潜在权衡。对于工程师，可学习如何通过抽象类属性派生配置的实践。

featuredocumentationtest

第 183 / 253 页 · 共 2020 条

上一页 1 … 181 182 183 184 185 … 253 下一页

vllm-project/vllm

PR 列表

#28443 [feat]: make DCP error msg clearer

#39182 [KV Offload] Implement `shutdown()` in `OffloadingConnector` and related classes

#39312 [Mergify] Update model vendor auto-label rules

#39388 Add EXAONE-4.5

#38571 [BugFix] Fix OOB read in CUTLASS grouped GEMM with epilogue

#32662 feat(cpu): add CPU support for draft model speculative decoding

#38244 [CT][FP8][Marlin] refactor CompressedTensorsW8A16Fp8 to use kernel abstraction

#38214 [Feature] Add auto-detection for reasoning_config when only reasoning_parser is set

参与讨论