Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 07:39 同步状态:空闲 下次计划:2026-06-04 08:39

PR 列表

更多筛选
2026-06-04

分离 speculator prefill CUDA graph 的 attention state

强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。

缺陷修复 重要性 5.67 洞察度 4.00

修复流式 Chat Completions 中 tool_choice='none' 未生效

值得精读。此 PR 展示了流式与非流式路径一致性修复的典型模式,并体现了 review 过程中关于守卫位置和范围权衡的决策过程,有助于理解 vLLM 工具调用解析架构。

重构 重要性 7.28 洞察度 5.00

融合residual支持到batch-invariant RMS norm

值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。

功能 重要性 9.18 洞察度 5.00

新增 Gemma4 Unified 编码器无关多模态模型

值得精读,特别关注子类化父类避免分支的设计模式,以及量化条件处理和嵌入数据类型的讨论。后续需要跟进 PR#44340 的修复并验证音频回归。

#44122 [Refactor] Remove dead code fp quant

原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22

重构 重要性 6.06 洞察度 2.00

移除 FPQuant 中的死代码

建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。

参与讨论