移除 speculative config 中硬编码的模型类型检查
该 PR 值得快速合并,逻辑简洁且正确。建议关注后续是否有模型因接口未实现而导致运行时错误,可考虑补充单元测试验证配置链路的完整性。
A high-throughput and memory-efficient inference and serving engine for LLMs
移除 speculative config 中硬编码的模型类型检查
该 PR 值得快速合并,逻辑简洁且正确。建议关注后续是否有模型因接口未实现而导致运行时错误,可考虑补充单元测试验证配置链路的完整性。
修复 gpt-oss 模型 bare 工具调用解析丢失 bug
值得精读。PR 展示了如何在不改动模型输出的前提下,通过工具名称列表和优先级规则健壮解析非标准格式。`is_function_recipient` 的设计可复用,review 中对边界情况的讨论有参考价值。
原始 PR · 作者 johncalesp · 合并时间 2026-05-14 01:52
为 Qwen2-VL ViT 添加 CUDA Graph 支持,TTFT 降低约 51%
此 PR 是实现多模态 CUDA Graph 支持的优秀范例,展示了如何为视觉模型适配 `SupportsEncoderCudaGraph` 协议。对于需要为其他模型启用类似优化的开发者,本 PR 的设计模式值得参考。建议精读 `qwen2_vl.py` 中 `prepare_encoder_metadata` 和 `forward` 的修改。
支持混合注意力模型的隐藏状态提取
值得精读的设计决策:HMA 支持检查的泛化机制(通过 SupportsHMA 接口和 supports_hma 函数)使 KV connector 能够声明兼容性;HiddenStateCacheSpec 的隔离分组方式使纯缓存层不干扰正常缓存分配。建议关注后续对 max_memory_usage_bytes 的 CP 修复。
原始 PR · 作者 NoeliaBentancor · 合并时间 2026-05-14 01:43
修复 Gemma4 MoE 路由闭包捕获参数问题
值得精读,特别是了解 Python 闭包捕获与 PyTorch functional API 交互的常见陷阱。该 PR 展示了如何通过避免变量捕获来确保参数替换正确工作。
支持自定义类作为推测解码 draft 生成器
值得精读。此 PR 展示了如何为 vLLM 添加可插拔的推测解码策略,其设计决策(工厂函数 vs 包装类、基于 `model` 字段复用)以及审阅过程中的权衡,对理解 vLLM 的模块化扩展有参考价值。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-13 23:02
A100 启用 compile 模式 batch invariance 测试
建议精读 PR#27842 和关联 Issue#27433 以了解 batch invariance 的整体设计。该 PR 本身是功能演进的里程碑,值得关注后续 SM80 上 compile 模式的实际效果。
新增多级 KV 缓存卸载框架,支持链式二级存储/网络
值得精读,特别是抽象接口设计和异步批处理模式。可关注层次化管理器的错误处理和生命周期管理。
参与讨论