Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#38895 bugfix(flashinfer,dcp): remove kv_cache_layout for BatchDCPPrefillWrapper._new_tokens.

原始 PR · 作者 pisceskkk · 合并时间 2026-05-11 16:11

缺陷修复重要性 5.42 洞察度 4.00

修复 FlashInfer + DCP HND 布局崩溃

此 PR 可作为极小改动解决关键崩溃的典型范例，值得快速合并。建议后续补充自动化测试覆盖该场景，并考虑采纳 Copilot 建议显式指定布局参数以增强健壮性。

bugfixv1nvidia

#41806 fix nixl side-channel host selection

原始 PR · 作者 shaharmor98 · 合并时间 2026-05-11 15:40

缺陷修复重要性 7.95 洞察度 5.00

修复 NIXL side-channel host 在 Ray DP 中的选择错误

该 PR 值得阅读，特别是 `_set_nixl_side_channel_host` 和 `get_env_vars_to_copy` 的改动展示了分布式环境中环境变量隔离的设计模式。Review 中关于结构性修复 vs 症状修复的讨论也值得学习。

bugfixv1kv-connector

#42163 Document MolmoWeb hf_overrides

原始 PR · 作者 hqhq1025 · 合并时间 2026-05-11 14:58

文档重要性 2.65 洞察度 2.00

更新文档说明 MolmoWeb 模型使用 hf_overrides 配置

建议所有使用 MolmoWeb 模型或类似架构变体的用户阅读此文档。对于开发者，这是一个很好的示例，展示了如何在不添加新代码的情况下通过文档和 hf_overrides 机制支持模型变体。

documentationmulti-modalitymodel

#42266 [CI/Build] Reduce LoRA model tests.

原始 PR · 作者 jeejeelee · 合并时间 2026-05-11 14:49

测试重要性 5.44 洞察度 5.00

精简 CI LoRA 测试，跳过冗余项

建议关注被跳过多 GPU 测试的死代码问题，考虑仅在 CI 特定标记而非平台级别跳过；对于 AMD CI，建议验证实际运行测试是否有效；此 PR 的设计决策值得学习，但覆盖风险需接受。

ci/buildtestlora

#42052 [Frontend] Return rendered prompt text in chat completion response

原始 PR · 作者 princepride · 合并时间 2026-05-11 13:53

功能重要性 5.66 洞察度 5.00

新增 prompt_text 字段返回聊天模板渲染文本

该 PR 设计简洁，值得关注其参数设计思路和直接利用引擎内部数据的做法。推荐在类似场景（如需要暴露内部处理结果）时参考此模式。

frontendfeatureresponses-api

#41188 [Misc] Replace mamba_type string literals with MambaAttentionBackendEnum

原始 PR · 作者 wangxiyuan · 合并时间 2026-05-11 11:59

重构重要性 6.63 洞察度 3.00

将 mamba_type 字符串改为枚举，简化选择器逻辑

建议阅读 `vllm/v1/attention/selector.py` 和 `vllm/v1/attention/backends/registry.py` 的变更，了解如何从字符串映射演进为类型安全枚举。对于关注类型安全和代码整洁的团队，这是一个值得借鉴的重构模式。

refactorcleanupv1

#41119 [ROCm][Bugfix]: dynamically align BLOCK_DMODEL with Lv in MLA decode kernel

原始 PR · 作者 vllmellm · 合并时间 2026-05-11 11:14

缺陷修复重要性 5.07 洞察度 6.00

动态对齐MLA解码kernel的BLOCK_DMODEL以修复ROCm编译崩溃

建议精读。该PR展示了如何通过动态对齐维度修复硬件后端兼容性问题，其设计方案（基于Lv对齐而非Lk）值得ML架构开发者参考。同时，代码中多余的逻辑被reviewer发现并简化，体现了良好的代码审查流程。

bugfixrocmv1

#42188 [Bugfix] Gemma 4 chat template crash with missing tool name and tool id

原始 PR · 作者 yzong-rh · 合并时间 2026-05-11 11:07

缺陷修复重要性 3.04 洞察度 2.00

修复 Gemma 4 聊天模板工具名称为空时崩溃

该 PR 简单但关键，建议直接合并。同时建议与 HuggingFace 上游团队（@lucianommartins）协调将相同修复合入 HF 官方模板，以覆盖使用 HF 默认模板的用户。

bugfixmodeldocumentation

第 96 / 269 页 · 共 2148 条

上一页 1 … 94 95 96 97 98 … 269 下一页