#38937 [ROCm][CI] Added back missing common deps
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-04 06:58
恢复ROCm CI测试依赖中的通用依赖项,修复AMD CI环境。
对于负责CI或ROCm维护的工程师,建议关注此PR以理解依赖管理策略。变更较简单,但讨论揭示了-c与-r的微妙区别以及外部依赖兼容性的重要性。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-04 06:58
恢复ROCm CI测试依赖中的通用依赖项,修复AMD CI环境。
对于负责CI或ROCm维护的工程师,建议关注此PR以理解依赖管理策略。变更较简单,但讨论揭示了-c与-r的微妙区别以及外部依赖兼容性的重要性。
移除AMD镜像构建作业的soft_fail配置,使构建失败时正确报错。
该PR变更简单,无需深入精读,但值得关注其反映的CI质量改进趋势。建议团队监控AMD构建作业的失败率,确保变更不会导致CI过度失败。
原始 PR · 作者 dhonnappa-amd · 合并时间 2026-04-04 04:11
移除AMD硬件CI测试脚本中的GPU状态确认和重置逻辑,适配Kubernetes环境。
该PR变更直接,适合快速浏览以理解CI环境适配。值得关注的是基础设施如何适应不同部署环境(裸机 vs Kubernetes)的设计决策,但无需深入代码细节。
原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-04-04 04:00
移除MessageQueue TCP多节点测试及其CI配置以解除CI阻塞。
这个PR值得关注,因为它展示了在CI阻塞时移除测试的取舍决策;精读可以了解团队如何处理测试失败和权衡覆盖与效率;建议关注未来是否有相关修复或测试恢复,以及类似CI变更的策略。
为V2模型运行器添加配置验证,阻止使用尚未支持的功能。
建议关注这个PR的设计决策:1. 验证方法的实现方式(集中式检查vs分散式检查)。2. 如何处理逐步支持的功能(通过注释关联未来PR)。3. 与CI配置的协同更新模式。对于使用V2模型运行器的开发者,这个PR值得精读以了解当前的功能限制。
重新启用TRT-LLM MoE专家的Renormalize路由方法,修复Qwen3.5模型推理问题。
该PR变更简单直接,主要价值在于了解路由方法禁用的历史背景和外部依赖修复的集成过程。建议关注: 1. 路由方法支持列表的设计模式。 2. 外部内核bug对vLLM功能的影响及修复流程。 3. 与PR #37591的关联,理解问题从出现到解决的完整脉络。
为vLLM IR添加OOT平台支持,将内核注册委托给平台类控制。
该PR值得平台开发者和IR基础设施维护者精读。重点关注:1. import_ir_kernels()的设计模式如何实现平台特定的内核注册。2. set_priority()中调用时机的权衡决策。3. 如何确保向后兼容性。建议检查项目中是否有其他代码路径可能提前访问IrOp注册表。
修复MTP同步调度下序列接近最大长度时logprobs严重错误的bug。
该PR值得精读,特别是对于处理推测解码和Mamba架构模型的工程师。关注点:1. 理解input_fits_in_drafter条件的重要性;2. 学习如何通过TME指标验证logprobs正确性;3. 注意代码重复问题,未来可考虑重构为辅助方法以提高可维护性。
参与讨论