将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
A high-throughput and memory-efficient inference and serving engine for LLMs
将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
原始 PR · 作者 cleonard530 · 合并时间 2026-06-04 00:29
迁移四组 CUDA 内核到 libtorch stable ABI
值得精读,特别是 stable ABI 适配的模式(如使用 STD_TORCH_CHECK、STABLE_TORCH_LIBRARY_FRAGMENT 和 TORCH_BOX 宏)。对于贡献者,了解这些模式有助于参与后续迁移步骤。设计上保留 ROCm 专用 QuickReduce 在 legacy 是一个透明决策,需关注后续迁移计划。
原始 PR · 作者 pschlan-amd · 合并时间 2026-06-04 00:09
优雅处理 spinloop 扩展加载失败
简单且必要的健壮性改进,值得快速合并。日志系统使用的规范值得其他开发者参考。
修复负值 max_num_scheduled_tokens 绕过验证的 bug
这是一个清晰的低风险修复,值得合并。虽为微小改动,但体现了配置验证一致性的好实践——避免将验证逻辑分散在条件分支中。建议在类似场景(如 `max_num_seqs` 等字段)也应用相同模式。
原始 PR · 作者 MengqingCao · 合并时间 2026-06-04 00:05
引入可插拔 KVCacheSpec 注册机制,支持外部自定义 Spec 和 Manager
此 PR 定义了一个重要的架构扩展点,设计清晰(注册表 + 平台钩子 + per-spec 方法),值得团队精读并作为未来插件系统的参考。特别关注 `KVCacheSpecRegistry` 的 MRO 查找策略、`uniform_type_base_spec` 的分组语义以及 `check_kv_cache_spec_registry` 的防御性设计。对外部平台开发者来说,这是一个必须了解的变更。
原始 PR · 作者 NickLucche · 合并时间 2026-06-04 00:04
CI 测试移除显式 HMA 标记,对齐默认启用
可安全合并。建议后续关注 HMA 功能演进,确保 CI 持续对齐。
修复 LoRA 加载异常处理路径
建议合入,该 PR 修复了 LoRA 加载失败时的异常处理路径,避免内部错误暴露。虽无测试配套,但逻辑简单且改动量小,风险可控。未来可考虑补充测试用例覆盖异常路径。
引入 FlashInfer 采样加速 top-k/top-p 路径
对于关注 V1 模型运行器性能的开发者,该 PR 展示了如何在实际系统中集成第三方采样内核并设计安全的回退条件,值得精读。建议在合并后补充针对新旧路径的测试,确保条件分支无遗漏。
参与讨论