Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 18:46 同步状态：空闲下次计划：2026-04-21 19:46

PR 列表

已合并 857 · 已分析 857

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-18

#37158 [Bugfix] Fix mock.patch resolution failure for standalone_compile.FakeTensorMode on Python <= 3.10

原始 PR · 作者 dbari · 合并时间 2026-03-18 04:13

缺陷修复重要性 5.00 洞察度 5.00

修复Python <= 3.10上mock.patch解析FakeTensorMode失败导致的编译崩溃。

这是一个小而关键的bug修复，值得工程师精读以理解mock.patch在不同Python版本下的行为差异。关注的设计决策包括使用sys.modules绕过字符串解析问题，以及针对版本兼容性的注释，这些技巧在处理跨版本兼容性时具有借鉴价值。

bugfixperformance

2026-03-16

#35970 In-Tree AMD Zen CPU Backend via zentorch [1/N]

原始 PR · 作者 amd-lalithnc · 合并时间 2026-03-16 07:35

功能重要性 7.00 洞察度 7.00

引入AMD Zen CPU后端，通过zentorch优化GEMM操作以提升性能。

推荐技术管理者和工程师精读此PR，重点关注平台检测机制（`_is_amd_zen_cpu`函数）和GEMM分发逻辑（`dispatch_cpu_unquantized_gemm`函数）的设计决策。注意review中关于缓存键和依赖管理的讨论，以了解潜在陷阱。对于涉及CPU后端优化或平台扩展的项目，此PR提供了可复用的架构模式。

cpufeatureperformance

2026-03-13

#36684 fix(kv-cache): increase hybrid attention grouping threshold from 1.25 to 1.5

原始 PR · 作者 hai-meh-cs · 合并时间 2026-03-13 11:28

缺陷修复重要性 6.00 洞察度 4.00

修复混合注意力模型 KV 缓存初始化失败，将分组阈值从 1.25 提高至 1.5。

建议工程师阅读此 PR 以了解 KV 缓存分组逻辑的启发式阈值设计，并关注 gemini-code-assist[bot] 提出的配置性建议，这对于长期代码维护有参考价值。

bugfixspeculative-decodingkv-connector

2026-03-12

#36599 [Bugfix] Warm up Triton autotuner for GDN layers during V1 profiling

原始 PR · 作者 AuYang261 · 合并时间 2026-03-12 15:51

缺陷修复重要性 6.00 洞察度 6.00

修复 GDN 层 Triton autotuner 在 V1 profiling 阶段未触发导致的 OOM 问题，确保 Qwen 模型稳定推理。

建议工程师精读此 PR，特别是关注如何在 V1 profiling 阶段预热 Triton autotuned kernels 以避免运行时内存问题。值得学习的设计决策包括 autotune key 的覆盖策略、小 tensor 预热方法，以及 review 中讨论的配置鲁棒性优化。对于处理高性能计算或内存敏感场景的开发者，此 PR 提供了实用的技术洞察。

bugfixmodelqwen

#29947 [Frontend] OpenAI Responses API supports Tool/Function calling with streaming

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-12 15:03

功能重要性 6.00 洞察度 6.00

为OpenAI Responses API添加流式工具/函数调用支持。

该PR值得精读，特别是`_process_simple_streaming_events`函数中的工具解析集成设计，展示了如何在现有流式框架中优雅地扩展新功能，同时关注测试组织和未来重构的权衡。

frontendtool-callingv1

#35895 [Bugfix] Fix minimax_m2 tool parser when stream interval > 1

原始 PR · 作者 sfeng33 · 合并时间 2026-03-12 10:25

缺陷修复重要性 6.00 洞察度 7.00

修复MiniMax M2工具解析器在流式输出时因批次大小导致的参数丢失问题。

此PR值得精读，尤其关注如何重构状态机处理流式解析边界情况，设计决策如缓冲策略和安全性权衡有学习价值。建议工程师查看`extract_tool_calls_streaming`函数和测试用例，以理解XML解析优化。

bugfixperformancetest

#36274 [Bugfix][ROCm] Strip block_size before attention backend validation

原始 PR · 作者 jennyyyyzhen · 合并时间 2026-03-12 04:37

缺陷修复重要性 4.00 洞察度 3.00

修复ROCm平台attention backend验证因不规则block_size导致的模型启动失败。

对于工程师，此PR不值得深入阅读，除非需了解ROCm平台验证逻辑或一致性修复模式。可快速浏览以确认变更与CUDA对齐，并注意类似的跨平台bugfix策略，作为维护代码一致性的参考案例。

bugfixrocm

2026-03-11

#36127 [Model] Add support for moonshotai/Kimi-Audio-7B-Instruct

原始 PR · 作者 tunglinwood · 合并时间 2026-03-11 12:24

功能重要性 7.00 洞察度 6.00

新增 Kimi-Audio 语音转文本模型支持，集成 Whisper 编码器与 Qwen2 解码器。

该 PR 值得精读，特别是模型融合逻辑（如 `embed_input_ids` 方法中的音频-文本嵌入处理）和自定义 tokenizer 设计，这些展示了在多模态模型中处理非标准组件的技术权衡。建议关注 review 讨论中的设计决策，如 renderer 适配和处理器简化，以借鉴于类似项目。

featuremodelmulti-modality

第 106 / 108 页 · 共 857 条

上一页 1 … 104 105 106 107 108 下一页

支持 Prhub ♥