Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 05:19 同步状态：空闲下次计划：2026-06-01 06:19

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-26

#38209 [Doc] Fix outdated reference to CUDAGraphManager

原始 PR · 作者 DarkLight1337 · 合并时间 2026-03-26 16:52

文档重要性 1.00 洞察度 2.00

修复文档中 EncoderCudaGraphManager 的引用路径，解决文档构建失败。

这是一个简单的文档修复，无需精读。建议团队在类似重构后及时更新文档引用，以避免构建中断。

documentationcudagraphrefactor

#38018 [Model] Use helper function to run MM processors with token inputs (where applicable)

原始 PR · 作者 DarkLight1337 · 合并时间 2026-03-26 16:44

功能重要性 6.00 洞察度 5.00

为多模态处理器引入助手函数，避免在 token-only 输入时生成虚拟文本。

建议团队精读此 PR，重点关注 `call_hf_processor_mm_only` 的设计决策，以及各模型特定重写（如 pixtral.py 中的 batch 维度处理）的逻辑，以理解多模态输入处理的最佳实践和潜在风险。

multi-modalityrefactorfeature

#38083 [Bugfix] Fix DeepGemm E8M0 accuracy degradation for Qwen3.5 FP8 on Blackwell

原始 PR · 作者 vadiklyutiy · 合并时间 2026-03-26 16:21

缺陷修复重要性 7.17 洞察度 5.00

修复 Qwen3.5 FP8 在 Blackwell 上 DeepGemm 精度下降

值得精读，尤其关注配置层 `use_deep_gemm` 的三态设计与自动禁用机制的权衡。review 中提出的覆盖失败和虚假日志问题需后续 PR 修复，可作为实践参考。

bugfixperformancefp8

#37691 [cpu][ci] remove soft-fail for Arm CI and add quant model tests

原始 PR · 作者 fadara01 · 合并时间 2026-03-26 15:03

基础设施重要性 4.00 洞察度 4.00

移除 Arm CI 的软失败标志并添加量化模型测试。

该 PR 值得快速浏览，以了解 CI 配置的变更和 Arm CPU 量化测试的添加。关注点在于测试覆盖的权衡决策，以及如何针对不同后端定制测试。

cicputest

#38049 [Model] Add torch.compile support for InternVL vision encoder

原始 PR · 作者 tianrengao · 合并时间 2026-03-26 14:52

功能重要性 6.00 洞察度 6.00

为InternVL视觉编码器添加torch.compile支持，提升推理性能约4%。

建议工程师精读此PR，了解torch.compile在多模态模型中的集成模式，特别是动态批处理维度的处理和配置序列化的错误恢复机制。对于负责性能优化或多模态开发的团队成员，此PR展示了重要的设计决策和代码简化实践。

torch.compilerocmmodel

#38082 [Bugfix] Fix benchmark_fused_collective.py

原始 PR · 作者 jeejeelee · 合并时间 2026-03-26 14:51

缺陷修复重要性 3.00 洞察度 4.00

修复 benchmark_fused_collective.py 中 FP4 量化操作的参数调用错误。

该 PR 变更较小，但涉及量化操作符的正确调用和代码重构，对于关注性能优化、torch.compile 兼容性或量化技术的工程师值得快速浏览。建议关注 `SCALED_FP4_QUANT_OUT_OP` 的使用方式，以及重构如何简化条件逻辑。

bugfixperformancequantization

#38011 Add `/v1/chat/completions/batch` endpoint for batched chat completions

原始 PR · 作者 MatejRojec · 合并时间 2026-03-26 12:13

功能重要性 7.00 洞察度 6.00

新增批处理聊天完成 API 端点，支持一次性处理多个对话以减少 HTTP 开销。

建议技术管理者和工程师精读此 PR，重点关注： 1. **设计模式**：`OpenAIServingChatBatch` 子类的引入展示了如何在扩展功能时保持代码模块化，值得借鉴用于其他 API 扩展。 2. **验证逻辑**：`BatchChatCompletionRequest` 中的 Pydantic 验证器如何优雅地强制 API 约束，避免运行时错误。 3. **测试策略**：新增的测试文件如何覆盖批处理场景，包括 JSON 架构和正则约束，可作为类似功能的测试模板。 4. **讨论点**：review 中关于效率和正确性的权衡，有助于理解在性能与规范性之间的决策过程。

frontendfeaturetest

#38092 [Bugfix][CI] Fix Marlin FP8 Linear Kernel for Compressed Tensors Format

原始 PR · 作者 BadrBasowid · 合并时间 2026-03-26 12:11

缺陷修复重要性 6.00 洞察度 5.00

修复Marlin FP8线性内核在使用压缩张量格式时的权重处理问题。

建议涉及FP8量化和Marlin内核开发的工程师精读此PR，关注权重处理逻辑和形状检查的设计决策，有助于理解压缩张量格式下的维度规范化问题。此外，review中的代码风格优化值得借鉴，提升代码简洁性。

bugfixquantizationfp8

第 233 / 253 页 · 共 2021 条

上一页 1 … 231 232 233 234 235 … 253 下一页