#35078 Bump actions/stale from 10.1.1 to 10.3.0
原始 PR · 作者 dependabot[bot] · 合并时间 2026-06-04 05:14
Bump actions/stale 到 v10.3.0
该 PR 为常规依赖升级,无需特别关注。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 dependabot[bot] · 合并时间 2026-06-04 05:14
Bump actions/stale 到 v10.3.0
该 PR 为常规依赖升级,无需特别关注。
原始 PR · 作者 WoosukKwon · 合并时间 2026-06-04 05:06
移除 FlashInfer 版本检查
可以快速合并。这是一个干净的清理 PR,适合作为审查培训的简单案例。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-06-04 04:32
分离 speculator prefill CUDA graph 的 attention state
强烈建议精读本 PR,尤其是 `cudagraph_utils.py` 中的设计。它清晰地展示了如何处理 CUDA graph capture 中的 lazy initialization 问题,是一种可复用的模式。其他需要实现自定义 `CudaGraphManager` 的开发者应参考此模式。
修复流式 Chat Completions 中 tool_choice='none' 未生效
值得精读。此 PR 展示了流式与非流式路径一致性修复的典型模式,并体现了 review 过程中关于守卫位置和范围权衡的决策过程,有助于理解 vLLM 工具调用解析架构。
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 03:22
融合residual支持到batch-invariant RMS norm
值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。
原始 PR · 作者 lucianommartins · 合并时间 2026-06-04 03:01
新增 Gemma4 Unified 编码器无关多模态模型
值得精读,特别关注子类化父类避免分支的设计模式,以及量化条件处理和嵌入数据类型的讨论。后续需要跟进 PR#44340 的修复并验证音频回归。
修复后替换别名路径的 LoRA 去重遗漏
值得合并,修复了明确的回归场景。可作为学习 LoRA 模块包装机制的典型示例。
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22
移除 FPQuant 中的死代码
建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。
参与讨论