Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 09:17 同步状态：空闲下次计划：2026-06-14 10:17

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-26

#38083 [Bugfix] Fix DeepGemm E8M0 accuracy degradation for Qwen3.5 FP8 on Blackwell

原始 PR · 作者 vadiklyutiy · 合并时间 2026-03-26 16:21

缺陷修复重要性 7.17 洞察度 5.00

修复 Qwen3.5 FP8 在 Blackwell 上 DeepGemm 精度下降

值得精读，尤其关注配置层 `use_deep_gemm` 的三态设计与自动禁用机制的权衡。review 中提出的覆盖失败和虚假日志问题需后续 PR 修复，可作为实践参考。

bugfixperformancefp8

#37691 [cpu][ci] remove soft-fail for Arm CI and add quant model tests

原始 PR · 作者 fadara01 · 合并时间 2026-03-26 15:03

基础设施重要性 4.00 洞察度 4.00

移除 Arm CI 的软失败标志并添加量化模型测试。

该 PR 值得快速浏览，以了解 CI 配置的变更和 Arm CPU 量化测试的添加。关注点在于测试覆盖的权衡决策，以及如何针对不同后端定制测试。

cicputest

#38049 [Model] Add torch.compile support for InternVL vision encoder

原始 PR · 作者 tianrengao · 合并时间 2026-03-26 14:52

功能重要性 6.00 洞察度 6.00

为InternVL视觉编码器添加torch.compile支持，提升推理性能约4%。

建议工程师精读此PR，了解torch.compile在多模态模型中的集成模式，特别是动态批处理维度的处理和配置序列化的错误恢复机制。对于负责性能优化或多模态开发的团队成员，此PR展示了重要的设计决策和代码简化实践。

torch.compilerocmmodel

#38082 [Bugfix] Fix benchmark_fused_collective.py

原始 PR · 作者 jeejeelee · 合并时间 2026-03-26 14:51

缺陷修复重要性 3.00 洞察度 4.00

修复 benchmark_fused_collective.py 中 FP4 量化操作的参数调用错误。

该 PR 变更较小，但涉及量化操作符的正确调用和代码重构，对于关注性能优化、torch.compile 兼容性或量化技术的工程师值得快速浏览。建议关注 `SCALED_FP4_QUANT_OUT_OP` 的使用方式，以及重构如何简化条件逻辑。

bugfixperformancequantization

#38011 Add `/v1/chat/completions/batch` endpoint for batched chat completions

原始 PR · 作者 MatejRojec · 合并时间 2026-03-26 12:13

功能重要性 7.00 洞察度 6.00

新增批处理聊天完成 API 端点，支持一次性处理多个对话以减少 HTTP 开销。

建议技术管理者和工程师精读此 PR，重点关注： 1. **设计模式**：`OpenAIServingChatBatch` 子类的引入展示了如何在扩展功能时保持代码模块化，值得借鉴用于其他 API 扩展。 2. **验证逻辑**：`BatchChatCompletionRequest` 中的 Pydantic 验证器如何优雅地强制 API 约束，避免运行时错误。 3. **测试策略**：新增的测试文件如何覆盖批处理场景，包括 JSON 架构和正则约束，可作为类似功能的测试模板。 4. **讨论点**：review 中关于效率和正确性的权衡，有助于理解在性能与规范性之间的决策过程。

frontendfeaturetest

#38092 [Bugfix][CI] Fix Marlin FP8 Linear Kernel for Compressed Tensors Format

原始 PR · 作者 BadrBasowid · 合并时间 2026-03-26 12:11

缺陷修复重要性 6.00 洞察度 5.00

修复Marlin FP8线性内核在使用压缩张量格式时的权重处理问题。

建议涉及FP8量化和Marlin内核开发的工程师精读此PR，关注权重处理逻辑和形状检查的设计决策，有助于理解压缩张量格式下的维度规范化问题。此外，review中的代码风格优化值得借鉴，提升代码简洁性。

bugfixquantizationfp8

#38116 Relocate Encoder CUDA graph manager

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-26 11:52

重构重要性 3.00 洞察度 2.00

将Encoder CUDA graph manager从v1/worker/gpu/目录移动到v1/worker/，避免与model runner v2目录冲突。

此PR值得快速浏览以了解目录结构调整，但无需深入分析复杂设计决策。关注点在于导入路径更新是否完整，建议检查相关文档和测试以确保无遗漏引用。

refactorcudagraphcleanup

#38029 [Tool Parser][1/3] Pass tools to ToolParser constructor

原始 PR · 作者 sfeng33 · 合并时间 2026-03-26 10:29

重构重要性 5.00 洞察度 5.00

为工具解析器构造函数添加 tools 参数，支持后续统一输出解析器解耦。

建议工程师精读 vllm/tool_parsers/abstract_tool_parser.py 的变更，了解 Tool 类型定义和构造函数设计；同时关注 review 讨论中的设计决策，如参数封装策略和类型处理，这些对理解整体重构方向和后续 PR 2、3 的演进有帮助。

refactorfrontendtool-calling

第 293 / 313 页 · 共 2499 条

上一页 1 … 291 292 293 294 295 … 313 下一页