Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 06:37 同步状态:空闲 下次计划:2026-06-04 07:37

PR 列表

更多筛选 · 已设定
✕ 清空
2026-06-04

分离 speculator prefill CUDA graph 的 attention state

强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。

缺陷修复 重要性 6.02 洞察度 4.00

修复 streaming 中 tool_choice=none 仍调用工具解析器的 bug

该 PR 是重要的正确性修复,值得所有使用工具解析功能的开发者关注。守卫位置和条件范围的设计决策(集中到 `_extract_tool_calls_streaming`、仅检查 `"none"`)值得在类似问题中借鉴。建议后续补充 Responses API 的回归测试,确保完全覆盖。

重构 重要性 7.28 洞察度 5.00

融合residual支持到batch-invariant RMS norm

值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。

功能 重要性 9.18 洞察度 5.00

新增 Gemma4 Unified 编码器无关多模态模型

值得精读,特别关注子类化父类避免分支的设计模式,以及量化条件处理和嵌入数据类型的讨论。后续需要跟进 PR#44340 的修复并验证音频回归。

#44122 [Refactor] Remove dead code fp quant

原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22

重构 重要性 6.06 洞察度 2.00

移除 FPQuant 中的死代码

建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。

参与讨论