Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 06:37 同步状态：空闲下次计划：2026-06-04 07:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-18

#36795 [Perf] Enable dual stream execution of input projection for Qwen3

原始 PR · 作者 xyang16 · 合并时间 2026-03-18 11:13

性能优化重要性 6.00 洞察度 6.00

为 Qwen3 模型输入投影启用双流执行，提升 GPU 并行度和推理性能。

建议技术管理者审查自定义操作设计和流同步机制，确保无死锁风险。工程师可精读 maybe_execute_in_parallel 函数学习多流优化模式，并关注 issue #37372 跟踪原生多流支持。该 PR 值得关注其性能提升与代码设计的权衡。

performanceqwentorch.compile

#35809 [Models] Cohere Transcribe

原始 PR · 作者 ekagra-ranjan · 合并时间 2026-03-18 05:04

功能重要性 6.00 洞察度 5.00

添加 Cohere ASR 语音转录模型支持，扩展 vLLM 多模态能力。

建议技术管理者和工程师精读此 PR，重点关注： 1. **模型实现**：`cohere_asr.py` 中的编码器-解码器架构设计，特别是与变长编码器集成的部分。 2. **设计决策**：`skip_decoder_start_token` 标志的引入和传播方式，体现了非侵入式扩展模式，值得借鉴。 3. **Review 洞察**：讨论中的设备处理和代码共享权衡，可帮助避免类似硬编码陷阱。 4. **关联变更**：结合 PR 31058 等历史变长编码器改进，理解整体架构演进。

featuremodelmulti-modality

#37158 [Bugfix] Fix mock.patch resolution failure for standalone_compile.FakeTensorMode on Python <= 3.10

原始 PR · 作者 dbari · 合并时间 2026-03-18 04:13

缺陷修复重要性 5.00 洞察度 5.00

修复Python <= 3.10上mock.patch解析FakeTensorMode失败导致的编译崩溃。

这是一个小而关键的bug修复，值得工程师精读以理解mock.patch在不同Python版本下的行为差异。关注的设计决策包括使用sys.modules绕过字符串解析问题，以及针对版本兼容性的注释，这些技巧在处理跨版本兼容性时具有借鉴价值。

bugfixperformance

2026-03-16

#35970 In-Tree AMD Zen CPU Backend via zentorch [1/N]

原始 PR · 作者 amd-lalithnc · 合并时间 2026-03-16 07:35

功能重要性 7.00 洞察度 7.00

引入AMD Zen CPU后端，通过zentorch优化GEMM操作以提升性能。

推荐技术管理者和工程师精读此PR，重点关注平台检测机制（`_is_amd_zen_cpu`函数）和GEMM分发逻辑（`dispatch_cpu_unquantized_gemm`函数）的设计决策。注意review中关于缓存键和依赖管理的讨论，以了解潜在陷阱。对于涉及CPU后端优化或平台扩展的项目，此PR提供了可复用的架构模式。

cpufeatureperformance

2026-03-13

#36684 fix(kv-cache): increase hybrid attention grouping threshold from 1.25 to 1.5

原始 PR · 作者 hai-meh-cs · 合并时间 2026-03-13 11:28

缺陷修复重要性 6.00 洞察度 4.00

修复混合注意力模型 KV 缓存初始化失败，将分组阈值从 1.25 提高至 1.5。

建议工程师阅读此 PR 以了解 KV 缓存分组逻辑的启发式阈值设计，并关注 gemini-code-assist[bot] 提出的配置性建议，这对于长期代码维护有参考价值。

bugfixspeculative-decodingkv-connector

2026-03-12

#36599 [Bugfix] Warm up Triton autotuner for GDN layers during V1 profiling

原始 PR · 作者 AuYang261 · 合并时间 2026-03-12 15:51

缺陷修复重要性 6.00 洞察度 6.00

修复 GDN 层 Triton autotuner 在 V1 profiling 阶段未触发导致的 OOM 问题，确保 Qwen 模型稳定推理。

建议工程师精读此 PR，特别是关注如何在 V1 profiling 阶段预热 Triton autotuned kernels 以避免运行时内存问题。值得学习的设计决策包括 autotune key 的覆盖策略、小 tensor 预热方法，以及 review 中讨论的配置鲁棒性优化。对于处理高性能计算或内存敏感场景的开发者，此 PR 提供了实用的技术洞察。

bugfixmodelqwen

#29947 [Frontend] OpenAI Responses API supports Tool/Function calling with streaming

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-12 15:03

功能重要性 6.00 洞察度 6.00

为OpenAI Responses API添加流式工具/函数调用支持。

该PR值得精读，特别是`_process_simple_streaming_events`函数中的工具解析集成设计，展示了如何在现有流式框架中优雅地扩展新功能，同时关注测试组织和未来重构的权衡。

frontendtool-callingfeature

#35895 [Bugfix] Fix minimax_m2 tool parser when stream interval > 1

原始 PR · 作者 sfeng33 · 合并时间 2026-03-12 10:25

缺陷修复重要性 6.00 洞察度 7.00

修复MiniMax M2工具解析器在流式输出时因批次大小导致的参数丢失问题。

此PR值得精读，尤其关注如何重构状态机处理流式解析边界情况，设计决策如缓冲策略和安全性权衡有学习价值。建议工程师查看`extract_tool_calls_streaming`函数和测试用例，以理解XML解析优化。

bugfixperformancetest

第 267 / 269 页 · 共 2147 条

上一页 1 … 265 266 267 268 269 下一页