Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#39805 [Bugfix] Fix EPLB initialization for VLM wrapper models

原始 PR · 作者 esmeetu · 合并时间 2026-05-14 10:26

缺陷修复重要性 6.62 洞察度 5.00

修复 VLM 包装模型上 EPLB 初始化崩溃

值得精读的 Bugfix PR，展示了如何处理协议接口与模型包装之间的兼容性问题。它同时修复了三条代码路径，模式清晰。gemini-code-assist 提出的重构建议（提取 helper）值得后续采纳。

bugfixv1moe

#41918 [XPU][CT] Support mxfp8 moe model

原始 PR · 作者 jikunshang · 合并时间 2026-05-14 09:47

功能重要性 7.01 洞察度 5.00

XPU 支持 MXFP8 MoE 模型推理

建议精读 `xpu_moe.py` 中的类设计，特别是 `_supports_quant_scheme` 的分层覆盖模式，可用于后续新增量化方案。其余文件修改较小，可快速浏览。

featureintel-gpuquantization

#42412 [Feature] Add instruction support for score/rerank chat templates

原始 PR · 作者 KrxGu · 合并时间 2026-05-14 09:41

功能重要性 7.50 洞察度 6.00

为 score/rerank 端点添加 instruction 与 chat_template_kwargs 支持

值得精读。该 PR 是 scoring API 功能补齐的重要一步，展示了如何通过 Pydantic validator 组合字段、如何在预处理管道中引入新参数，以及如何设计向后兼容的 chat 模板。特别推荐给负责 entrypoints 和维护定制化 rerank 服务的开发者。

featurefrontendqwen

#40269 [Bugfix][Spec Decode] Wire draft_probs into probabilistic draft_model rejection

原始 PR · 作者 bedeks · 合并时间 2026-05-14 09:04

缺陷修复重要性 8.47 洞察度 6.00

修复 V1 speculative decoding 中 draft_probs 未传递使 probabilistic rejection 失效

值得精读。本 PR 虽然改动量中等，但修复了一个重要的正确性问题，展示了 speculative decoding 中 draft_probs 的完整生命周期：从 proposer 采样时捕获，跨模块缓存，到 GPUModelRunner 按请求重新排列，最终传递给 rejection sampler。设计模式清晰，配套测试完善。尤其推荐关注 _get_spec_decode_draft_probs 中的请求顺序对齐逻辑。

bugfixspeculative-decodingv1

#42128 [Bugfix] Fix Gemma4ToolParser streaming float corruption

原始 PR · 作者 abinggo · 合并时间 2026-05-14 09:03

缺陷修复重要性 5.70 洞察度 6.00

修复 Gemma4 流式浮点数损坏

值得精读，展示了流式 diff 场景下防御性保留的典型处理模式。设计上只改动了最必要的部分，避免了过度工程。

bugfixtool-callingv1

#42570 [Refactor] Use shared utils in hermes tool parser

原始 PR · 作者 sfeng33 · 合并时间 2026-05-14 08:35

重构重要性 6.92 洞察度 3.50

Hermes 工具解析器提取公共工具函数

建议快速合并。这是良好的代码清理工作，降低重复，提高一致性。值得其他工具解析器参考这一模式。

refactortool-callingcleanup

#39599 fix(tool-parser): preserve "none"/"nil" strings as valid enum values in minimax_m2

原始 PR · 作者 ianliuy · 合并时间 2026-05-14 08:35

缺陷修复重要性 6.83 洞察度 6.00

修复 minimax_m2 工具解析器将 none/nil 错误转换为 None

值得精读。展示了工具解析器中类型转换与 schema 感知的结合，体现了保守修复与精确修复的设计权衡。测试代码清晰，可作为类似 bugfix 的参考。

bugfixtool-callingparser

#42104 [CI] set max transformers version for skywork model

原始 PR · 作者 divakar-amd · 合并时间 2026-05-14 07:53

缺陷修复重要性 4.20 洞察度 2.00

限制 Skywork 模型 transformers 版本上限

作为临时修复，此 PR 快速解决了 CI 稳定问题。长期应关注 transformers 5.x 的兼容性，或推动 Skywork 官方修复其模型初始化。

bugfixtestci

第 81 / 269 页 · 共 2150 条

上一页 1 … 79 80 81 82 83 … 269 下一页