Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 15:52 同步状态：空闲下次计划：2026-05-31 16:52

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#39910 [CPU][IBM Z][Dockefile][Docs] Fix s390x builds for torch 2.11 and update docs for s390x

原始 PR · 作者 R3hankhan123 · 合并时间 2026-04-16 13:26

基础设施重要性 6.34 洞察度 5.00

修复s390x构建以支持Torch 2.11，并更新相关文档。

对于从事CPU支持或跨平台构建的工程师，建议精读此PR以了解如何处理特定架构的差异。关注`csrc/cpu/utils.hpp`中的L2缓存检测设计，以及Dockerfile中的依赖管理策略。

cpudocumentationbugfix

#37469 [perf][cpu] Accelerate BF16 GELU with LUT impl on Arm CPUs

原始 PR · 作者 fadara01 · 合并时间 2026-04-16 13:26

性能优化重要性 8.69 洞察度 6.00

在Arm CPU上引入BF16 GELU的LUT实现，最高加速8倍，优化量化模型推理性能。

建议精读此PR以学习CPU特定性能优化技术，重点关注LUT实现的设计细节（如预计算和并行化）、平台条件分支的优雅处理，以及CustomOp集成模式如何平衡灵活性与性能。对于从事低层优化或跨平台开发的工程师，这是一个有价值的案例。

cpuperformance

#39780 [Bugfix] Reject empty tools array with HTTP 400

原始 PR · 作者 jigangz · 合并时间 2026-04-16 12:08

缺陷修复重要性 5.70 洞察度 5.00

拒绝空tools数组并返回400

值得阅读 review 讨论中关于 OpenAI 行为演变的调查部分，展示了如何通过社区报告推断外部 API 变更。变更本身简单清晰，适合作为 API 兼容性修复的参考。

bugfixfrontendtool-calling

#39217 [Mistral Grammar] Fix tool and reasoning parsing

原始 PR · 作者 juliendenize · 合并时间 2026-04-16 12:05

缺陷修复重要性 9.00 洞察度 7.00

修复Mistral模型在语法约束下的工具和推理解析失败问题。

建议精读此PR以理解Mistral语法约束解析的设计权衡，特别是全局状态问题的临时解决方案和测试覆盖的全面性。关注`vllm/tool_parsers/mistral_tool_parser.py`中的整合逻辑和服务层路由条件，可作为工具解析集成的参考案例。

bugfixtool-callingmistral

#38657 [compile] Invoke split FX graph by codegen.

原始 PR · 作者 zhxchen17 · 合并时间 2026-04-16 12:03

性能优化重要性 7.94 洞察度 6.00

通过代码生成替代FX图执行，减少推理循环的运行时开销。

建议技术管理者精读此PR，重点关注代码生成器的设计决策和潜在漏洞。对于工程师，值得学习如何通过代码生成优化Python执行路径，但需注意review中提到的未解决问题，并在相关工作中避免类似陷阱。

performancecompilation

#33773 [ROCm][FEAT] Integrate aiter gemm w8a8 ptpc

原始 PR · 作者 vllmellm · 合并时间 2026-04-16 09:55

功能重要性 9.00 洞察度 6.00

在AMD ROCm平台集成aiter GEMM内核，优化FP8推理性能。

建议工程师精读此PR，重点关注内核选择逻辑（如`can_implement`方法如何实现条件分发）以及权重处理流程。这对于理解ROCm平台性能优化和量化内核集成有重要参考价值。

rocmfeatureperformance

#39951 [Model Runner V2][BugFix] fix num_sampled dtype for probabilistic rej…

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-16 09:09

缺陷修复重要性 4.53 洞察度 3.00

修复概率拒绝采样器中num_sampled张量数据类型不匹配导致的Triton编译错误。

该PR值得快速浏览，重点关注数据类型一致性在GPU内核交互中的重要性。虽然变更简单，但揭示了在混合Python/Triton代码中类型匹配的常见陷阱，可作为类似问题的参考案例。

bugfixspeculative-decoding

#38995 [Quantization] - Layerwise reloading of Attention/KV quantized models

原始 PR · 作者 Josephasafg · 合并时间 2026-04-16 09:03

功能重要性 7.82 洞察度 7.00

实现量化模型中注意力缩放权重的层间重载，修复标量权重计数问题。

该PR值得精读，特别是`layerwise.py`中的`_finalize_attention_layer`和`_reload_attention_scales`函数，展示了如何处理注意力层的独特重载逻辑和设计中的顺序权衡。关注点包括：设备放置逻辑的潜在问题、注意力层与线性层的处理顺序依赖，以及标量权重加载修复对计数机制的影響。

quantizationfeaturemodel

第 163 / 253 页 · 共 2020 条

上一页 1 … 161 162 163 164 165 … 253 下一页