Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 19:59 同步状态：空闲下次计划：2026-04-21 20:59

PR 列表

已合并 859 · 已分析 859

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-08

#39087 [CI][AMD][BugFix][Kernel] Cast induction variable to int64 on MI350 for chunk_gated_delta_rule_fwd_kernel_h_blockdim64 to avoid illegal memory access

原始 PR · 作者 rasmith · 合并时间 2026-04-08 16:57

缺陷修复重要性 4.00 洞察度 5.00

修复 AMD MI350 上 Triton 内核非法内存访问，强制转换循环变量为 int64。

该 PR 值得精读，特别是对于从事 Triton 内核开发或跨平台优化的工程师。关注点：1. Triton 内核中整数类型转换的最佳实践，避免硬件特定内存访问错误。2. review 中讨论的跨平台兼容性问题及其解决方式（尽管最终代码未体现，但揭示了设计权衡）。3. 如何通过最小改动修复平台特定 bug，保持代码简洁。

bugfixrocmv1

#39251 [Docs] Update README

原始 PR · 作者 mgoin · 合并时间 2026-04-08 11:34

文档重要性 3.00 洞察度 2.00

更新 README 以反映 vLLM 项目增长、新增功能和安装推荐。

该 PR 是常规文档更新，无需深入代码分析。对于技术管理者，可快速浏览以了解项目最新功能宣传点；对于工程师，关注点在于安装工具推荐的变化（uv vs pip）和新增功能术语（如 'disaggregated prefill'、'EAGLE'），这可能暗示技术栈演进。

documentationv1

#38909 [Bugfix][Frontend] Fix Gemma4 streaming HTML duplication after tool calls

原始 PR · 作者 yoke233 · 合并时间 2026-04-08 11:03

缺陷修复重要性 5.00 洞察度 4.00

修复 Gemma4 流式工具解析器中 HTML 内容重复的 bug。

对于处理工具解析或 Gemma4 模型的工程师值得精读，学习缓冲区管理在流式解析中的正确实践，并参考新增测试作为回归防护示例。

bugfixfrontendtool-calling

#38755 [Parser] Migrate response api streaming to unified parser

原始 PR · 作者 sfeng33 · 合并时间 2026-04-08 10:09

重构重要性 5.00 洞察度 6.00

迁移响应 API 流式逻辑到统一解析器，简化代码结构。

建议精读此 PR，了解统一解析器的设计思路和 StreamState 状态管理机制，同时关注 review 中提到的工具参数缺失和覆盖问题，以便在后续开发中注意相关风险。

refactorfrontendresponses-api

#38848 [Bugfix] Fix Qwen3 tool parser for Responses API tools

原始 PR · 作者 sfeng33 · 合并时间 2026-04-08 10:08

缺陷修复重要性 6.00 洞察度 6.00

修复 Qwen3 工具解析器对 Responses API 工具的支持，确保参数类型正确解析。

该 PR 值得精读，因为它展示了如何通过共享工具函数解决 API 兼容性问题，并涉及规范遵循与灵活性的权衡。建议关注 `find_tool_properties` 的设计决策、测试覆盖的讨论以及工具解析模块的统一化趋势。

bugfixtool-callingqwen

#39232 [Docs] Add Phi-4-reasoning-vision to supported models + examples

原始 PR · 作者 varun-sundar-rabindranath · 合并时间 2026-04-08 10:02

文档重要性 3.00 洞察度 2.00

为 Phi-4-reasoning-vision 模型添加文档支持和离线推理示例。

该 PR 主要涉及文档和示例，对于想了解 vLLM 多模态模型支持范围的工程师值得快速浏览。关注点在于示例中的 `max_model_len` 参数设置是否合理，以及未来类似示例是否需要统一调整。

documentationv1multi-modality

#34644 [release 2.11] Update to torch 2.11

原始 PR · 作者 atalman · 合并时间 2026-04-08 09:55

基础设施重要性 7.00 洞察度 6.00

升级 PyTorch 及相关依赖至 2.11 版本，涉及全平台构建和 CI 配置。

建议技术管理者和工程师精读此 PR，以理解大规模依赖升级的最佳实践，特别是多平台协调和风险缓解策略。关注 Docker 镜像变更和测试跳过决策，这些是权衡兼容性与新特性的关键点。

performancev1rocm

#37025 [CI] Add reasoning parser tests to CI

原始 PR · 作者 sfeng33 · 合并时间 2026-04-08 08:57

基础设施重要性 4.00 洞察度 4.00

将推理解析器测试添加到CI流水线，并暂时忽略已知失败测试。

这是一个简单的CI变更，无需精读代码。值得关注的是讨论中关于pytest路径和工作目录的决策（反映CI环境细节），以及优先合并以保护通过测试的策略（平衡及时保护与问题延迟处理）。

citestv1

第 47 / 108 页 · 共 859 条

上一页 1 … 45 46 47 48 49 … 108 下一页

支持 Prhub ♥