Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 04:32 同步状态：空闲下次计划：2026-05-31 05:32

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-24

#35687 [Bugfix] Treat <tool_call> as implicit reasoning end in Qwen3 parser

原始 PR · 作者 qmx · 合并时间 2026-04-24 09:10

缺陷修复重要性 7.16 洞察度 6.00

修复Qwen3.5推理中工具调用被隐式丢弃的问题

该PR修复了真实用户场景中的工具调用丢失问题，代码实现清晰、测试充分，建议合并。设计上值得关注的是：通过反向遍历序列并排除配对标记，巧妙区分了模型输出与提示模板中的相同标记。

bugfixqwenmodel

#40662 [Feat] Unified Synthetic Acceptance Rate for V1 and V2

原始 PR · 作者 benchislett · 合并时间 2026-04-24 08:48

功能重要性 8.85 洞察度 6.00

统一 V1 和 V2 合成拒绝采样接受率配置

建议仔细阅读 `vllm/config/speculative.py` 中的配置解析和校验逻辑（最小方差调度设计简洁），以及 Triton kernel 的改动。对于自行实现推测解码的开发者，`unconditional_to_conditional_rates` 转换函数值得复用。PR 整体设计合理，测试覆盖完整，应批准合并。

speculative-decodingv1v2

#40654 [Core] Avoid seq_lens_cpu GPU->CPU sync

原始 PR · 作者 njhill · 合并时间 2026-04-24 08:35

重构重要性 7.01 洞察度 7.00

避免 GPU→CPU 同步，引入 seq_lens_cpu_upper_bound

此 PR 值得精读，尤其是从事 speculative decoding 或 attention 后端开发的工程师。设计决策：用 CPU 计算的上界替代 GPU 张量访问，是一种典型的异步优化模式。建议关注 eagle.py 中减法操作的实现，确认其无同步。

performancespeculative-decodingrefactor

#40730 [EPLB] Remove asyncio infrastructure from Async EPLB

原始 PR · 作者 SageMoore · 合并时间 2026-04-24 08:21

重构重要性 5.86 洞察度 3.00

移除 Async EPLB 中未使用的 asyncio 基础设施

建议快速合并。这是一次干净的重构，降低了代码复杂度，便于后续维护。值得关注的是通过移除 asyncio 并保留显式同步点来保持正确性的模式。

refactorcleanup

#39999 [ROCm] Cast score correction bias tensor during model construction for DeepSeek/Kimi-K2

原始 PR · 作者 heachary · 合并时间 2026-04-24 08:02

性能优化重要性 6.12 洞察度 6.50

将MoE score correction bias类型转换移到模型构建时，消除每次前向的冗余GPU kernel

值得精读。该PR展示了如何通过将运行时dtype转换前移到模型构建时间来消除冗余kernel调用，是典型的性能优化模式。注意`set_out_dtype`的调用顺序与预转换的依赖关系，以及选择在具体模型中操作而非通用层的原因。review中关于`nn.Parameter.data`直接修改和后续类型转换的讨论也有参考价值。

performancerocmdeepseek

#39009 [MoE] Move remaining PrepareAndFinalize to prepare finalize folder

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 08:00

重构重要性 8.50 洞察度 4.00

将 MoE 剩余 PrepareAndFinalize 文件移至独立子目录

建议合入，此重构提升了代码可维护性。后续可考虑解决 review 中提出的 in-place 修改问题，但非阻塞。

refactormoecleanup

#40539 [Docs]Add documentation for bench serve visualization arguments

原始 PR · 作者 sducouedic · 合并时间 2026-04-24 06:48

文档重要性 5.55 洞察度 2.00

为 bench serve 可视化参数添加文档

建议合并，文档补全对用户友好。参数解析方式的变化（逗号分隔）是合理的改进，但应确保在发布说明中提及此 breaking change。代码改动量小且经过评审，正确性有保障。

documentationperformancebenchmark

#40732 [Spec Decode] Move `SpecDecodeBaseProposer` out of `eagle.py`

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-24 06:28

重构重要性 9.00 洞察度 6.00

将 SpecDecodeBaseProposer 从 eagle.py 移入独立文件

建议架构师和推测解码相关开发者精读，重点关注基类的设计结构和审查中提出的设计问题。本 PR 展示了纯代码重构的典型流程（git mv + 导入调整 + 测试同步），可作为类似重构的参考范例。

speculative-decodingrefactorcpu

第 134 / 253 页 · 共 2019 条

上一页 1 … 132 133 134 135 136 … 253 下一页