Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-15

#42709 [Bugfix] Ensure embeding model compilation on CPU

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-15 18:58

缺陷修复重要性 5.74 洞察度 5.00

修复 CPU 上 embedding 模型未编译的问题

该 PR 是 CPU 后端 embedding 模型性能退化的重要修复，建议精读并确认随机种子重置顺序是否需要调整。虽修复核心问题，但种子顺序可能引入隐藏的随机状态一致性问题，建议修复。

bugfixcpuv1

#42630 gemma3 multi-gpu bug-fix

原始 PR · 作者 pmaybank · 合并时间 2026-05-15 17:32

缺陷修复重要性 5.08 洞察度 3.00

修复 Gemma3 多 GPU 下形状不匹配 bug

值得合并，属于典型的一行修复 bug。可快速批准合并。建议未来在类似 `RowParallelLinear` 的使用处也显式指定 `input_is_parallel` 参数以增强可读性。

bugfixmodelnvidia

#42616 fix: propagate revision/code_revision pins to all artifact boundaries

原始 PR · 作者 jperezdealgaba · 合并时间 2026-05-15 17:31

缺陷修复重要性 6.01 洞察度 3.00

修复 revision/code_revision 未传递到所有模型加载路径的问题

建议合并。这是正确性问题修复，变更小而专注，有测试覆盖（GGUF 路径），且所有改动的模式一致：在缺少 revision/code_revision 参数传递的地方补上。值得关注的设计决策是统一使用 `model_config.revision` 和 `model_config.code_revision` 作为唯一来源，避免后续新增加载路径再次遗漏。

bugfixmodelcleanup

#42025 [ROCm][CI] Stage B gating

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-15 16:49

基础设施重要性 4.74 洞察度 3.00

AMD CI 第二阶段镜像门禁配置

值得关注该 PR 作为 AMD CI 基础设施分阶段扩展的一部分。建议确保所有 mirror 块包含必要的环境变量，并考虑逐步将 optional 测试提升为强制测试以提高覆盖质量。

rocmci/buildinfra

#42604 DeepSeekV4-Pro enable cuda graph full and piecewise mode

原始 PR · 作者 bobofang11235 · 合并时间 2026-05-15 16:45

性能优化重要性 7.05 洞察度 5.00

DSV4 Pro 启用 FULL_AND_PIECEWISE CUDA 图模式

值得精读，尤其是为 CUDA 图提供稳定元数据 buffer 的做法以及处理嵌套编译冲突的思路。对于动态 shape 切片的潜在性能问题可进一步优化，但作为快速启用已足够。后续 PR 应关注准确率修复和单元测试补充。

rocmv1deepseek

#42267 [Entrypoints] Split the pooling offline API into PoolingOfflineMixin.

原始 PR · 作者 noooop · 合并时间 2026-05-15 16:05

重构重要性 8.55 洞察度 5.00

将 pooling 离线推理逻辑抽取为 PoolingOfflineMixin

值得精读，尤其是对 vLLM 架构感兴趣的工程师。该 PR 展示了如何通过 Mixin 模式将大型类中的功能域解耦，同时保持对外接口不变。为将来进一步拆分 LLM 类或其他类复用 pooling 逻辑提供了参考。建议关注初始化顺序的设计和文档链接的变更。

refactorfrontenddocumentation

#42258 [Core][DSV4] Skip caching SWA blocks that can never serve a prefix-cache hit

原始 PR · 作者 ivanium · 合并时间 2026-05-15 15:59

性能优化重要性 7.83 洞察度 6.00

跳过无法命中 Prefix Cache 的 SWA 块

值得精读，设计模式（通过 mask 避免无效缓存）可供类似场景借鉴。但需关注 review 中提出的共享物理块断言风险和事件过滤问题，建议在后续 PR 中验证并修复可能的问题。

v1performancedeepseek

#42306 [Misc] Make it simpler to replace out-of-tree layer classes with related LoRA layers.

原始 PR · 作者 paulyu12 · 合并时间 2026-05-15 15:20

重构重要性 5.17 洞察度 3.00

简化 OOT 层与 LoRA 层替换的兼容性

该 PR 改动较小且逻辑清晰，无明显风险，适合快速合并。可作为其他自定义层与 LoRA 集成的参考模式。

lorarefactorcleanup

第 75 / 269 页 · 共 2148 条

上一页 1 … 73 74 75 76 77 … 269 下一页