Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-14
功能 重要性 7.50 洞察度 6.00

为 score/rerank 端点添加 instruction 与 chat_template_kwargs 支持

值得精读。该 PR 是 scoring API 功能补齐的重要一步,展示了如何通过 Pydantic validator 组合字段、如何在预处理管道中引入新参数,以及如何设计向后兼容的 chat 模板。特别推荐给负责 entrypoints 和维护定制化 rerank 服务的开发者。

缺陷修复 重要性 8.47 洞察度 6.00

修复 V1 speculative decoding 中 draft_probs 未传递使 probabilistic rejection 失效

值得精读。本 PR 虽然改动量中等,但修复了一个重要的正确性问题,展示了 speculative decoding 中 draft_probs 的完整生命周期:从 proposer 采样时捕获,跨模块缓存,到 GPUModelRunner 按请求重新排列,最终传递给 rejection sampler。设计模式清晰,配套测试完善。尤其推荐关注 _get_spec_decode_draft_probs 中的请求顺序对齐逻辑。

缺陷修复 重要性 5.70 洞察度 6.00

修复 Gemma4 流式浮点数损坏

值得精读,展示了流式 diff 场景下防御性保留的典型处理模式。设计上只改动了最必要的部分,避免了过度工程。

重构 重要性 6.92 洞察度 3.50

Hermes 工具解析器提取公共工具函数

建议快速合并。这是良好的代码清理工作,降低重复,提高一致性。值得其他工具解析器参考这一模式。

缺陷修复 重要性 6.83 洞察度 6.00

修复 minimax_m2 工具解析器将 none/nil 错误转换为 None

值得精读。展示了工具解析器中类型转换与 schema 感知的结合,体现了保守修复与精确修复的设计权衡。测试代码清晰,可作为类似 bugfix 的参考。

缺陷修复 重要性 4.20 洞察度 2.00

限制 Skywork 模型 transformers 版本上限

作为临时修复,此 PR 快速解决了 CI 稳定问题。长期应关注 transformers 5.x 的兼容性,或推动 Skywork 官方修复其模型初始化。

缺陷修复 重要性 6.59 洞察度 5.00

修复 V1 ubatch wrapper 不支持元组输出

该 PR 是典型的高信噪比 bugfix,逻辑清晰,改动集中,值得精读。推荐的关注点: 1. `_cat_ubatch_outputs` 的设计模式:如何用极少的代码优雅扩展原有单 Tensor 思维到元组输出,可推广到其他需要合并异构返回值的场景。 2. CUDA Graph 捕获路径与非捕获路径共享同一合并逻辑的实践,体现了一处定义、多处复用的好习惯。 3. 作者对 CI 失败的分析方法:逐项确认失败是否与自身变更相关,值得借鉴。

#42320 [Bugfix] Fix DeepSeek V4 MTP HC state handling

原始 PR · 作者 mmangkad · 合并时间 2026-05-14 06:44

缺陷修复 重要性 6.12 洞察度 4.00

修复 DeepSeek V4 MTP HC 状态处理不匹配

建议精读,因为该 PR 展示了如何快速修复跨模块的接口兼容性问题,并体现了 review 推动代码优化的良性流程。

参与讨论