Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 07:09 同步状态:空闲 下次计划:2026-04-19 08:09

PR 列表

已合并 793 · 已分析 793
更多筛选
2026-03-26

#38153 [Refactor] Remove unused utils

作者 yewentao256 · 合并时间 2026-03-26 17:08

重构 重要性 4.00 洞察度 2.00

移除三个未使用的工具函数及其测试,清理代码库。

建议技术管理者简要审阅此 PR,关注 review 中提到的 `wraps` 导入问题,确保已正确处理。对于工程师,此 PR 是简单的清理操作,无需深入精读,但可作为代码维护的参考案例。

#38125 DOC: Documentation pages fixes

作者 mtsokol · 合并时间 2026-03-26 16:55

文档 重要性 2.00 洞察度 2.00

修复配置文件docstring中的表格格式,提升文档渲染质量。

此PR为纯文档修复,无需精读;但可关注mkdocstrings的交叉引用机制和--help输出的处理方式,以理解文档工具链的工作细节。

功能 重要性 6.00 洞察度 5.00

为多模态处理器引入助手函数,避免在 token-only 输入时生成虚拟文本。

建议团队精读此 PR,重点关注 `call_hf_processor_mm_only` 的设计决策,以及各模型特定重写(如 pixtral.py 中的 batch 维度处理)的逻辑,以理解多模态输入处理的最佳实践和潜在风险。

缺陷修复 重要性 6.00 洞察度 6.00

自动禁用DeepGemm for Qwen3.5 on Blackwell,修复FP8量化精度下降问题。

建议技术管理者关注此PR,因为它揭示了DeepGemm在特定硬件和模型上的精度权衡。工程师应精读`vllm/config/vllm.py`和`fp8.py`中的实现,理解自动禁用机制和FP8量化栈传播逻辑,同时注意review中提到的未解决MoE问题,可能需要后续PR补充修复。

参与讨论