Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 13:49 同步状态：空闲下次计划：2026-05-31 14:49

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-18

#40089 [Misc][UX] Map mimo reasoning and tooling parsers

原始 PR · 作者 ywang96 · 合并时间 2026-04-18 00:49

功能重要性 4.88 洞察度 3.00

为 MiMo-V2-Flash 模型添加推理和工具解析器映射，复用 Qwen3 实现。

该 PR 变更简单，适合快速浏览以了解模型支持扩展模式。值得关注的点是复用现有解析器的设计决策，这减少了代码重复，但需确保模型兼容性。

tool-callingfeature

#39291 feat: Add LoRA support for Gemma4ForConditionalGeneration

原始 PR · 作者 allgather · 合并时间 2026-04-18 00:39

功能重要性 6.33 洞察度 5.00

为 Gemma4ForConditionalGeneration 添加 LoRA 支持

该 PR 设计简洁，改动集中，适合作为 vLLM 中为多模态模型添加 LoRA 的参考案例。建议阅读 `get_mm_mapping` 的实现，理解条件性暴露前缀的设计。同时应尽快补充 Gemma4 专用 LoRA 测试以验证适配器加载。

featuremodelmulti-modality

#39870 [BugFix] Support custom tool parsers when tool_choice is `required` and named function

原始 PR · 作者 JaredforReal · 合并时间 2026-04-18 00:38

缺陷修复重要性 6.72 洞察度 6.00

修复GLM等模型在tool_choice='required'或命名函数时因XML工具调用输出导致的解析失败。

该PR值得精读，展示了通过类级标志扩展工具解析器支持不同输出格式的设计模式，关注`supports_required_and_named`的引入和请求调整逻辑，以学习如何优雅地处理模型特定行为，同时注意风险点如响应格式清理和测试覆盖。

bugfixtool-callingfrontend

#38726 [Bugfix][Core] Fix stuck chunked pipeline parallelism with async scheduling

原始 PR · 作者 starkwj · 合并时间 2026-04-18 00:02

缺陷修复重要性 7.22 洞察度 5.00

修复 PP + async scheduling 下 chunked prefill 卡住问题

该 PR 是重要 bugfix，设计决策清晰（将条件内移避免副作用），值得精读。建议合并后补充自动化 e2e 测试以保障长期稳定性。

bugfixperformancescheduler

2026-04-17

#40060 Fix TURBOQUANT backend selection in cuda.py

原始 PR · 作者 mgoin · 合并时间 2026-04-17 22:31

缺陷修复重要性 4.60 洞察度 4.00

修复 TURBOQUANT 注意力后端选择逻辑，移除硬编码旁路并加入优先级列表。

建议仔细阅读 `vllm/platforms/cuda.py` 中的 `_get_backend_priorities` 和 `get_valid_backends` 方法，关注 TURBOQUANT 优先级调整和硬编码移除的设计决策。同时，注意 review 中提到的未解决风险，可能需要后续 PR 来优化验证逻辑。

bugfixnvidiaattention

#37332 Add nvfp4 support to reshape_and_cache_flash

原始 PR · 作者 sychen52 · 合并时间 2026-04-17 22:28

功能重要性 8.62 洞察度 6.00

添加 NVFP4 量化支持到 KV 缓存，扩展 reshape_and_cache_flash 功能。

该 PR 值得精读，特别是 NVFP4 量化布局设计（[k_data, k_scale, v_data, v_scale] 确保连续内存）和工具函数拆分逻辑，这些决策影响 kernel 实现和性能。关注 FlashInfer 后端的集成方式，以及 decode 路径不完整的后续处理。建议工程师了解新数据类型的添加流程和测试覆盖方法。

featurequantizationnvidia

#40141 Add @bbrowning to CODEOWNERS

原始 PR · 作者 bbrowning · 合并时间 2026-04-17 21:51

文档重要性 2.60 洞察度 1.00

将 @bbrowning 添加为工具和推理解析器的代码所有者与提交者。

此 PR 变更简单，无需深入技术分析。对于了解项目治理结构或代码所有者机制的工程师，可快速浏览以熟悉配置格式；对于核心开发者，可关注其反映的社区贡献者成长模式。

documentationci/build

#40090 [Bugfix] Fix empty delta detection in Qwen3XMLToolParser streaming

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-17 21:34

缺陷修复重要性 5.31 洞察度 4.00

修复 Qwen3XML 工具解析器在流式输出中空 delta 检测逻辑，避免产生不符合 OpenAI 规范的 delta 消息。

该 PR 代码变更简洁，聚焦于特定 bugfix，适合快速浏览以理解工具解析器流式输出的规范遵循问题。值得关注的设计决策是：在空 delta 检测中未包含 role 字段检查，这可能是一个有意为之的简化，但 reviewer 指出的潜在风险值得在后续开发中留意。

bugfixtool-callingqwen

第 157 / 253 页 · 共 2020 条

上一页 1 … 155 156 157 158 159 … 253 下一页