#38030 [MRV2] Fix for DS v3.2
作者 WoosukKwon · 合并时间 2026-03-25 05:03
修复MRV2模型在DeepSpeed v3.2下KV缓存规格处理问题。
该PR是一个针对性bugfix,值得处理KV缓存和DeepSpeed集成的开发者关注,特别是了解如何支持灵活规格配置的设计决策。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 WoosukKwon · 合并时间 2026-03-25 05:03
修复MRV2模型在DeepSpeed v3.2下KV缓存规格处理问题。
该PR是一个针对性bugfix,值得处理KV缓存和DeepSpeed集成的开发者关注,特别是了解如何支持灵活规格配置的设计决策。
作者 njhill · 合并时间 2026-03-25 04:57
简化 Model Runner V2 中的管道并行逻辑,优化代码结构并引入潜在 bug。
建议工程师精读此 PR,重点关注 kv_connector_output 丢失的问题,检查是否已在后续提交中修复。重构设计值得学习,尤其是如何统一 PP 逻辑以减少冗余,但需警惕潜在的正确性风险。
作者 aasgaonkar · 合并时间 2026-03-25 04:34
为 vLLM 的 Docker 构建添加 Ubuntu 24.04 支持,扩展 CI 管道兼容性。
建议工程师精读此 PR,特别是 `docker/Dockerfile` 中的兼容性修复和 CI 管道扩展,以理解构建系统的演进。关注参数化设计和跨版本测试覆盖。
作者 liangel-02 · 合并时间 2026-03-25 04:03
为FlexAttention添加自定义mask mod支持,允许用户定义块稀疏提示。
建议技术管理者精读此PR,关注BlockSparsityHint的设计和mask构建逻辑的调整,这对于理解FlexAttention的扩展性和未来稀疏attention优化有参考价值。
作者 javierdejesusda · 合并时间 2026-03-25 03:22
修复 hf_token 在配置加载路径中未传递的 bug,支持 gated models 的显式 token 认证。
该 PR 值得快速浏览,关注 `hf_token` 参数如何在三个关键路径中传递,学习系统性地修复参数遗漏问题。
作者 zou3519 · 合并时间 2026-03-25 03:08
修复 VLLM_USE_STANDALONE_COMPILE=0 的编译 bug,并添加测试以确保正确性。
推荐对编译模块或 PyTorch 集成感兴趣的工程师精读此 PR,以了解 FakeTensorMode 和 tracing context 的陷阱,并关注私有 API 使用和弃用路径的决策权衡,有助于在类似场景下做出技术选择。
作者 zou3519 · 合并时间 2026-03-25 02:58
修复 AOT 编译加载日志顺序,确保计数和日志只在缓存命中时更新。
这是一个小范围的 bugfix,代码变更简单明了,建议快速 review 并合并。对于工程师,可关注日志顺序调整的设计,但无需深度精读,除非涉及编译系统调试。
作者 NickCao · 合并时间 2026-03-25 02:23
添加 Granite 4.0 1B speech 模型到 vLLM 支持列表,并提供测试覆盖。
建议工程师阅读此 PR 以了解如何在 vLLM 中添加新模型,特别是测试适配和文档更新模式。但变更相对简单,无需深度研究;可关注语言列表的潜在风险,考虑未来动态验证改进。
参与讨论