在MI325上启用内核核心测试,并跳过MI250上因量化精度导致的flaky测试。
建议关注此PR中处理硬件特定flakiness的策略,以及测试覆盖率的权衡。对于涉及跨平台测试的团队,可借鉴条件性跳过测试的方法,但需确保核心逻辑不受影响,并考虑长期维护成本。
A high-throughput and memory-efficient inference and serving engine for LLMs
在MI325上启用内核核心测试,并跳过MI250上因量化精度导致的flaky测试。
建议关注此PR中处理硬件特定flakiness的策略,以及测试覆盖率的权衡。对于涉及跨平台测试的团队,可借鉴条件性跳过测试的方法,但需确保核心逻辑不受影响,并考虑长期维护成本。
原始 PR · 作者 netanel-haber · 合并时间 2026-04-06 06:23
修复nano_nemotron_vl模型视频分析时张量设备不匹配异常。
该PR变更简单直接,无需精读。对于维护nano_nemotron_vl模型或处理设备同步问题的工程师,可以关注_create_final_video_embeddings方法中设备显式传递的模式,作为避免类似设备不匹配问题的参考。
将25个通过验证的CI测试步骤切换到H200 MIG 18GB设备队列。
建议 CI/基础设施维护者审阅此 PR,以了解测试资源分配策略更新和依赖的外部变更;对于一般开发者,无需深入阅读代码,但可关注 CI 环境变化可能带来的测试执行时间或资源占用差异。
原始 PR · 作者 Gregory-Pereira · 合并时间 2026-04-06 03:11
修复cudagraph_mm_encoder启用时因模块导入路径错误导致的ModuleNotFoundError。
该PR值得快速浏览以了解cudagraph_mm_encoder功能的基础架构。重点关注: 1. encoder_cudagraph相关模块的组织结构。 2. Qwen3-VL模型如何实现SupportsEncoderCudaGraph协议。 3. 导入路径一致性在大型项目中的重要性。
原始 PR · 作者 Gregory-Pereira · 合并时间 2026-04-06 01:11
修复Gemma 4流式工具调用中因部分分隔符泄漏导致的JSON解析错误。
该PR值得快速浏览,重点关注`_emit_argument_diff`方法中剥离字符集的扩展逻辑,这是修复的核心;同时可学习如何通过单元测试模拟流式边界情况。对于涉及工具调用或流式处理的开发者,此变更展示了处理部分令牌问题的典型模式。
优化Trtllm fp8 MoE权重布局为Shuffled Weights和BlockMajorK,提升性能。
建议精读此PR,重点关注权重布局优化设计(如BlockMajorK布局选择)和对warmup逻辑的修复,这对理解vLLM中MoE性能调优和兼容性处理有参考价值。
原始 PR · 作者 voipmonitor · 合并时间 2026-04-05 22:28
修复MoE模型TP-only配置下6-8%的解码性能回归,恢复多流并行执行共享专家层。
该PR值得精读,尤其是对于关注MoE性能优化的工程师。关键设计决策是“多流重叠优先于外部执行”的条件顺序调整,这反映了在TP-only配置下最大化并行性的优化思路。建议结合#35153理解回归引入的上下文。
修复推测解码中extract_hidden_states对视觉语言模型配置处理的bug。
该PR值得精读,尤其是配置处理的设计决策:关注ExtractHiddenStatesConfig如何平衡扁平化与保留对象结构,以及测试用例如何模拟VLM配置。建议团队在处理嵌套模型配置时参考此模式。
参与讨论