#38152 Disable dual stream execution of input projection for Qwen3
作者 xyang16 · 合并时间 2026-03-26 09:20
为 Qwen3 模型禁用输入投影的双流执行,修复冷编译时间约 4 倍的回归。
建议技术管理者关注此 PR,因为它展示了性能优化与编译时间的权衡,以及临时回退的策略。工程师可学习如何安全地移除自定义操作以避免编译回归。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 xyang16 · 合并时间 2026-03-26 09:20
为 Qwen3 模型禁用输入投影的双流执行,修复冷编译时间约 4 倍的回归。
建议技术管理者关注此 PR,因为它展示了性能优化与编译时间的权衡,以及临时回退的策略。工程师可学习如何安全地移除自定义操作以避免编译回归。
作者 wzhao18 · 合并时间 2026-03-26 08:48
修复MiniMax M2.5 NVFP4模型KV缩放权重加载时的KeyError问题。
该PR值得快速浏览,特别是对于处理模型权重加载或MiniMax模型支持的工程师。关注点在于参数名重映射的设计决策,以及如何优雅处理外部模型文件与内部参数结构的差异。虽然代码变更简单,但体现了模型兼容性维护的典型模式。
作者 jrplatin · 合并时间 2026-03-26 08:46
修复TPU上Qwen3.5-FP8模型权重加载时的维度不匹配错误。
对于维护FP8量化或TPU支持的相关开发者,建议精读此PR以理解BlockQuantScaleParameter的处理逻辑和硬件差异。同时,可关注代码重复问题,未来重构时参考gemini-code-assist[bot]的建议。
作者 hmellor · 合并时间 2026-03-26 08:10
修复Transformers v5相关配置错误,清理过时代码以提升兼容性。
建议工程师在类似配置处理场景中关注字典副作用的避免,同时review sliding window转换逻辑的时序以确保正确性。该PR变更简洁,适合快速了解配置修复模式和代码清理实践。
作者 ekagra-ranjan · 合并时间 2026-03-26 07:13
启用Cohere Transcribe模型,集成到vLLM支持语音识别。
建议技术管理者和工程师精读此PR,以了解vLLM中模型集成的方法。关注注册表设计决策和测试策略,特别是如何使用标准归一器处理不同模型的输出归一化。注册表重复问题值得注意,建议在后续PR中修复以避免维护风险。
作者 Rohan138 · 合并时间 2026-03-26 04:58
在ROCm平台默认禁用RoPE自定义操作符并调整rope+kvcache融合条件以避免性能退化。
该PR值得精读,尤其关注splitting_ops_contain_kv_cache_update函数的设计决策和条件逻辑,以理解vLLM中融合优化的复杂性和平台特定处理。
作者 guillaumeguy · 合并时间 2026-03-26 04:13
在ImageEmbeddingMediaIO中添加numpy数组支持,减少payload大小并提升序列化性能。
建议精读此PR,特别是安全修复部分和性能优化设计;关注_load_numpy方法的实现和测试用例,以学习如何处理不同数据格式。
作者 SKPsanjeevi · 合并时间 2026-03-26 03:00
支持 ROCm 上的持久化 MLA 内核,减少内核启动开销提升性能。
该 PR 值得精读,特别是对于关注 GPU 内核优化和 ROCm 平台性能的工程师。重点关注持久化缓冲区管理设计、环境变量移除的决策、性能测试结果分析,以及讨论中提到的形状约束问题,这些揭示了内核集成中的技术权衡。
参与讨论