Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-27
功能 重要性 5.78 洞察度 5.00

Triton W4A16 内核支持 CUDA fallback

值得合并,变更简洁且目的明确。建议在后续 PR 中添加性能日志或文档说明,帮助用户了解 fallback 内核的使用情况。同时可考虑为 TritonW4A16LinearKernel 添加更细粒度的性能基准测试。

#43697 [Docs] Fix MLA prefill backend default docs

原始 PR · 作者 mmangkad · 合并时间 2026-05-27 18:13

文档 重要性 3.60 洞察度 2.00

修正 MLA prefill 后端默认选择文档

建议审阅者确认文档预览内容正确后直接合并。这是一次纯粹的文档修正,没有逻辑和行为变更。

重构 重要性 9.16 洞察度 6.00

统一流式/非流式路径的工具解析器回退行为

值得精读,尤其是 `parse_into` 与 `reset` 的设计,以及错误处理中保留部分输出的模式。建议关注 `easy-ext` 依赖的最终处理方式,以及是否所有解析器都正确实现了 `reset`。

性能优化 重要性 6.17 洞察度 5.00

避免 ROCm 编译时重复 bf16 转换

该 PR 改动小巧、聚焦,验证充分(性能、精度、FX dump),建议合并。值得注意的设计决策:通过额外 buffer 而非修改全局 dtype 来避免精度影响,以及将条件守卫精确限定在编译时快路径。

功能 重要性 8.60 洞察度 6.00

新增 MiniCPM5 XML 工具调用解析器

该 PR 设计清晰、测试全面,值得其他工具解析器实现参考。特别注意其流式参数增量构建方式(`_streaming_args_diff`)和 tokenizer 特殊字符归一化处理。建议阅读 `minicpm5xml_tool_parser.py` 中的注释理解关键决策。

缺陷修复 重要性 6.62 洞察度 5.00

修复 spec decode 下 KV connector 时序错误

建议所有使用 MRV2 + 推测解码 + KV 连接器的用户合入此 PR。设计上延迟 post_forward 到 proposer 之后是正确做法,值得作为模式参考。

性能优化 重要性 6.58 洞察度 5.00

暴露 AITER MoE 调度策略环境变量,支持 ROCm 性能调优

推荐合并。改动简洁、默认向后兼容,且提供了明确性能收益。建议后续引入自动化测试,并在文档中记录该环境变量。

参与讨论