Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-27

#43731 [Kernel] Enable TritonW4A16LinearKernel as CUDA fallback for non-Marlin-aligned W4A16 shapes

原始 PR · 作者 lucianommartins · 合并时间 2026-05-27 18:36

功能重要性 5.78 洞察度 5.00

Triton W4A16 内核支持 CUDA fallback

值得合并，变更简洁且目的明确。建议在后续 PR 中添加性能日志或文档说明，帮助用户了解 fallback 内核的使用情况。同时可考虑为 TritonW4A16LinearKernel 添加更细粒度的性能基准测试。

kernelnvidiafeature

#43697 [Docs] Fix MLA prefill backend default docs

原始 PR · 作者 mmangkad · 合并时间 2026-05-27 18:13

文档重要性 3.60 洞察度 2.00

修正 MLA prefill 后端默认选择文档

建议审阅者确认文档预览内容正确后直接合并。这是一次纯粹的文档修正，没有逻辑和行为变更。

documentationattentionv1

#43662 [Rust Frontend] Align tool parser fallback behavior between streaming & non-streaming paths

原始 PR · 作者 BugenZhao · 合并时间 2026-05-27 18:13

重构重要性 9.16 洞察度 6.00

统一流式/非流式路径的工具解析器回退行为

值得精读，尤其是 `parse_into` 与 `reset` 的设计，以及错误处理中保留部分输出的模式。建议关注 `easy-ext` 依赖的最终处理方式，以及是否所有解析器都正确实现了 `reset`。

refactorfrontendtool-calling

#43550 [Doc] Add Ascend NPU tab to the quickstart installation guide

原始 PR · 作者 adityasingh2400 · 合并时间 2026-05-27 16:41

文档重要性 2.20 洞察度 2.00

在快速入门指南中新增 Ascend NPU 安装指引

建议合并。这是一项小而清晰的文档改进，遵循了既有的选项卡风格，且已通过审查和预览验证。合并后可关闭关联 Issue #43549。

documentationcleanup

#42833 [ROCm][GPT-OSS] Avoid repeated compile-time `cos_sin_cache.to(bf16)` casts in rotary path

原始 PR · 作者 akii96 · 合并时间 2026-05-27 16:22

性能优化重要性 6.17 洞察度 5.00

避免 ROCm 编译时重复 bf16 转换

该 PR 改动小巧、聚焦，验证充分（性能、精度、FX dump），建议合并。值得注意的设计决策：通过额外 buffer 而非修改全局 dtype 来避免精度影响，以及将条件守卫精确限定在编译时快路径。

rocmperformancegpt-oss

#43175 [Frontend] Add MiniCPM5 XML tool call parser

原始 PR · 作者 zhangtao2-1 · 合并时间 2026-05-27 15:39

功能重要性 8.60 洞察度 6.00

新增 MiniCPM5 XML 工具调用解析器

该 PR 设计清晰、测试全面，值得其他工具解析器实现参考。特别注意其流式参数增量构建方式（`_streaming_args_diff`）和 tokenizer 特殊字符归一化处理。建议阅读 `minicpm5xml_tool_parser.py` 中的注释理解关键决策。

featuretool-callingparser

#43719 [MRV2][BugFix] Fix KV connector handling in spec decode case

原始 PR · 作者 njhill · 合并时间 2026-05-27 14:37

缺陷修复重要性 6.62 洞察度 5.00

修复 spec decode 下 KV connector 时序错误

建议所有使用 MRV2 + 推测解码 + KV 连接器的用户合入此 PR。设计上延迟 post_forward 到 proposer 之后是正确做法，值得作为模式参考。

bugfixv1kv-connector

#39177 [ROCm][Perf] Expose AITER MoE sorting dispatch policy via env var

原始 PR · 作者 nholmber · 合并时间 2026-05-27 13:11

性能优化重要性 6.58 洞察度 5.00

暴露 AITER MoE 调度策略环境变量，支持 ROCm 性能调优

推荐合并。改动简洁、默认向后兼容，且提供了明确性能收益。建议后续引入自动化测试，并在文档中记录该环境变量。

rocmperformancemoe

第 34 / 269 页 · 共 2148 条

上一页 1 … 32 33 34 35 36 … 269 下一页