Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 04:17 同步状态：空闲下次计划：2026-06-01 05:17

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-26

#38120 [Cohere] Enable Cohere Transcribe

原始 PR · 作者 ekagra-ranjan · 合并时间 2026-03-26 07:13

功能重要性 6.00 洞察度 5.00

启用Cohere Transcribe模型，集成到vLLM支持语音识别。

建议技术管理者和工程师精读此PR，以了解vLLM中模型集成的方法。关注注册表设计决策和测试策略，特别是如何使用标准归一器处理不同模型的输出归一化。注册表重复问题值得注意，建议在后续PR中修复以避免维护风险。

modeldocumentationtest

#36716 [ROCm]: Update rope+kvcache fusion conditions and disable custom op by default

原始 PR · 作者 Rohan138 · 合并时间 2026-03-26 04:58

缺陷修复重要性 6.00 洞察度 6.00

在ROCm平台默认禁用RoPE自定义操作符并调整rope+kvcache融合条件以避免性能退化。

该PR值得精读，尤其关注splitting_ops_contain_kv_cache_update函数的设计决策和条件逻辑，以理解vLLM中融合优化的复杂性和平台特定处理。

rocmperformancebugfix

#38119 [MultiModal] add support for numpy array embeddings

原始 PR · 作者 guillaumeguy · 合并时间 2026-03-26 04:13

功能重要性 6.00 洞察度 5.00

在ImageEmbeddingMediaIO中添加numpy数组支持，减少payload大小并提升序列化性能。

建议精读此PR，特别是安全修复部分和性能优化设计；关注_load_numpy方法的实现和测试用例，以学习如何处理不同数据格式。

multi-modalityfeatureperformance

#36574 [ROCm] Utilize persistent MLA kernel from AITER

原始 PR · 作者 SKPsanjeevi · 合并时间 2026-03-26 03:00

功能重要性 6.00 洞察度 6.00

支持 ROCm 上的持久化 MLA 内核，减少内核启动开销提升性能。

该 PR 值得精读，特别是对于关注 GPU 内核优化和 ROCm 平台性能的工程师。重点关注持久化缓冲区管理设计、环境变量移除的决策、性能测试结果分析，以及讨论中提到的形状约束问题，这些揭示了内核集成中的技术权衡。

rocmperformancefeature

#37833 [ROCm] Fix MoE kernel test failures on gfx950

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-26 02:46

缺陷修复重要性 6.00 洞察度 6.00

修复ROCm gfx950平台Mixture of Experts内核测试失败，涉及API差异、数值稳定性和测试增强。

该PR值得精读，特别是ROCm平台MoE内核的实现细节和数值稳定性技巧。建议关注以下设计决策： - 平台特定回退机制（如C++内核保护）的优雅处理方式。 - FP8量化中乘法替换除法以避免边界误差的通用性。 - 测试中容差放松与诊断增强的平衡，可作为处理硬件差异的参考案例。工程师可从中学习如何适配多平台API差异和优化数值鲁棒性。

rocmbugfixtest

#38096 [Core][KV Connector] Remove use of num_cached_tokens in error handling

原始 PR · 作者 markmc · 合并时间 2026-03-26 02:20

重构重要性 5.00 洞察度 5.00

重构 KV 缓存失效处理逻辑，移除了对 num_cached_tokens 的依赖，统一同步与异步加载场景下的令牌计数计算。

对于负责调度器、KV 缓存管理或 KV 连接器模块的工程师，建议快速浏览此 PR 以理解错误处理逻辑的简化方向。重点关注 `req_num_computed_tokens` 的新计算方式及其背后的设计意图（精确反映已计算且已缓存的令牌）。对于更广泛的团队，可以将其视为一个代码清理和统一接口的示例。

schedulerrefactorkv-connector

#38115 [Frontend] Move APIServerProcessManager target server fn

原始 PR · 作者 njhill · 合并时间 2026-03-26 02:14

重构重要性 3.00 洞察度 2.00

将API服务器工作进程函数从CLI模块移至v1 utils模块，优化代码组织。

建议快速浏览以了解代码重构方向，特别是APIServerProcessManager的设计变更。对于新开发者，可作为简单模块化重构案例参考。

refactorfrontendtest

#35182 [Misc] Reorganize inputs

原始 PR · 作者 DarkLight1337 · 合并时间 2026-03-26 01:22

重构重要性 6.00 洞察度 5.00

重构输入模块，重命名类名并拆分文件以标准化引擎和LLM API输入。

建议技术管理者和工程师精读此PR，重点关注以下设计决策： 1. **模块拆分策略**：如何将输入类型按使用场景（LLM API vs. 引擎）分离，以避免循环导入和提升代码组织。 2. **命名规范化**：从复数到单数的类名变更，以及变量名统一（如 `engine_prompts -> engine_inputs`），体现了类型系统的一致性设计。 3. **多模态输入处理**：移动多模态定义到 `vllm.inputs.llm` 和 `vllm.inputs.engine`，展示了如何整合多模态数据到现有输入框架中。此外，review中的讨论提供了关于文档和类型安全的最佳实践启示。

refactormulti-modalityfrontend

第 235 / 253 页 · 共 2021 条

上一页 1 … 233 234 235 236 237 … 253 下一页