Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 02:27 同步状态：空闲下次计划：2026-05-31 03:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-30

#39121 [ROCm] Use quant_dtype in per_token_quant instead of hardcoded FP8

原始 PR · 作者 Bortlesboat · 合并时间 2026-04-30 04:46

缺陷修复重要性 4.72 洞察度 3.00

修复 ROCm per_token_quant 硬编码 FP8 的 bug

该 PR 改动简单清晰，值得快速合并。对于关注 ROCm 量化栈的开发者，可关注后续是否真正启用 int8 路径以及是否在 fake 中添加断言。其他开发者可忽略。

rocmbugfixquantization

#37735 [Feature]: IndexCache support for DSA models

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-30 03:15

功能重要性 6.64 洞察度 6.00

IndexCache用于DSv3.2稀疏注意力优化

该 PR 设计精简、实现清晰，是典型的“小改动大收益”案例。建议阅读 `mla.py` 中 `skip_topk` 的判断逻辑以及 `deepseek_v2.py` 中基于 layer ID 的调度决策，可作为模型侧 Cache 优化的参考范式。

featureperformancedeepseek

#36194 Replace shape_invariants with simpler apprach in dynamic_arg_dims utilizing shape_id property.

原始 PR · 作者 laithsakka · 合并时间 2026-04-30 02:32

重构重要性 7.99 洞察度 6.00

用 shape_id 替代 shape_invariants 简化动态形状声明

值得细读 `vllm/compilation/decorators.py` 中的版本检测和类型扩展设计，以及模型文件中的简洁性改进。建议确认 `vllm/config/vllm.py` 中 `return False` 是否已被正确移除或说明，并推动其他模型完成迁移。

refactorcompilationtorch.compile

#40916 Fix timeout when using LoRA adapters with Nemotron Super

原始 PR · 作者 danisereb · 合并时间 2026-04-30 01:39

缺陷修复重要性 7.08 洞察度 5.00

移除 LoRA 加载警告循环修复 Nemotron Super 超时

该 PR 值得精读，展示了‘性能瓶颈往往来自看似无害的日志循环’的典型优化案例。作者的决策（移除非功能必需的循环）虽简单但有效，适合作为性能优化的借鉴。同时，讨论中关于优化方案的权衡也值得参考。

bugfixloraperformance

#39712 [CI/Build] Enable FP8 on NVIDIA Thor

原始 PR · 作者 DarkLight1337 · 合并时间 2026-04-30 00:48

功能重要性 5.38 洞察度 5.00

启用 NVIDIA Thor SM110 的 FP8 支持

此 PR 值得快速合并，因为它解决了阻塞 Thor 用户的关键启动问题。设计上采用范围检查而非逐个架构添加的做法，降低了后续新架构的维护成本。建议尽快跟进 Python 端 capability 检查的更新（相关文件：`vllm/v1/attention/backends/mla/cutlass_mla.py`）。

nvidiafeatureci/build

#41145 better logging for large uncachable items

原始 PR · 作者 h-avsha · 合并时间 2026-04-30 00:48

重构重要性 5.78 洞察度 4.00

改进大对象未缓存时的日志

虽然逻辑合理且维护者已 approve，但需确认 `logger.warning_once` 在传异常对象时不会崩溃。建议在合并后观察生产环境是否出现 `TypeError` 异常上报。

multi-modalityrefactorcleanup

2026-04-29

#40817 [Models] Cohere MoE

原始 PR · 作者 Terrencezzj · 合并时间 2026-04-29 23:54

功能重要性 9.05 洞察度 6.00

新增 Cohere MoE 模型支持，含自定义路由 SigmoidRenorm

建议阅读该 PR 以理解 Cohere MoE 的实现方式，特别是自定义路由函数的设计和枚举扩展模式。对于使用 Cohere MoE 的用户，等待模型权重发布后再进行验证。注意审查残差连接和 RoPE 的实现是否符合预期。

featuremodelmoe

#41023 [Bugfix] Report compile time for in-memory cache hit path

原始 PR · 作者 frgossen · 合并时间 2026-04-29 23:32

缺陷修复重要性 4.29 洞察度 3.00

修复内存缓存命中时编译时间未上报

值得精读此 PR，它是一个教科书级的微小修复：问题定位精准、改动最小、理由充分。对于理解 vLLM 编译后端的内存缓存机制和日志上报逻辑有很好的参考价值。

bugfixcompilationcleanup

第 117 / 253 页 · 共 2018 条

上一页 1 … 115 116 117 118 119 … 253 下一页