修复 DeepSeek V4 二次启动时因 AOT 缓存导致的 import 错误
建议合并。修复逻辑清晰、风险极低,且经过 `zou3519`(PyTorch 核心维护者)和 `ProExpertProg` 批准。适合需要 DeepSeek V4 生产部署的团队优先集成。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 DeepSeek V4 二次启动时因 AOT 缓存导致的 import 错误
建议合并。修复逻辑清晰、风险极低,且经过 `zou3519`(PyTorch 核心维护者)和 `ProExpertProg` 批准。适合需要 DeepSeek V4 生产部署的团队优先集成。
新增 Cohere Command A 推理与工具解析器
本 PR 值得关注设计思路:如何将外部复杂的推理/工具解析器以可选方式集成到 vLLM 插件体系中。尤其是 `try/except` 动态导入 + 错误提示的实践,以及 `PyFilter` 有状态对象的管理策略。建议阅读代码中的 `collect_tool_schema` 使用 xgrammar 从 JSON Schema 生成 EBNF 语法的手段。但注意缺少测试覆盖,使用解析器时需谨慎。
原始 PR · 作者 Lucaskabela · 合并时间 2026-04-29 12:07
移除 B200 批次不变性 workaround,统一 SM100 与 SM90 路径
值得精读。PR 展示了如何在上游修复后干净地剥离临时 workaround,同时注意了交叉平台安全(`is_cuda()` 保护)。是学习 vLLM 如何处理 GPU 架构差异和 PyTorch 版本兼容性的好例子。
为 layerwise 重载添加乱序加载导致额外内存 buffer 的警告
该 PR 设计简洁清晰,使用 `WeakSet` 跟踪活跃层并配合 `warning_once` 避免日志泛滥,是一个值得参考的监控模式。对于涉及 layerwise 重载或类似渐进加载系统的开发者,建议精读。
为 QeRL 层重载提供文档和内存警告
该 PR 主要为文档性质,但其附带代码变更对 QeRL 功能有实际增强。建议 QeRL 相关开发者精读文档中的 API 说明和限制部分;团队可关注后续 #40309 系列 PR 的推进,以获取完整的层重载支持。设计上值得注意的有:使用 WeakSet 进行轻量级层跟踪、在线量化方法与 weight_loader 的协作模式。
原始 PR · 作者 liangel-02 · 合并时间 2026-04-29 12:05
启用 FlexAttention 的 batch invariance 支持
该 PR 代码简洁且聚焦,适合有注意力后端开发背景的工程师精读。关键设计决策是使用张量切片替代 `as_strided` 以匹配 CUDA Graph 的内存布局,这是一个值得记录的模式。建议合并。
模型权重加载跟踪可配置化
值得精读,尤其是 `track_weights_loading` 中的量化参数忽略逻辑。建议合并前解决 reviewer 指出的宽泛检查问题,以充分发挥该特性的价值。
修复 chat 测试的 n 参数 flaky 问题
值得合并以提升 CI 稳定性。
参与讨论