#42453 [Feature] Support batch invariant rms norm with residual
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 03:22
融合residual支持到batch-invariant RMS norm
值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 03:22
融合residual支持到batch-invariant RMS norm
值得精读,特别是关于批处理不变性归一化的设计模式。合并函数并支持可选residual的做法简洁清晰,可作为类似重构的参考。
原始 PR · 作者 lucianommartins · 合并时间 2026-06-04 03:01
新增 Gemma4 Unified 编码器无关多模态模型
值得精读,特别关注子类化父类避免分支的设计模式,以及量化条件处理和嵌入数据类型的讨论。后续需要跟进 PR#44340 的修复并验证音频回归。
修复后替换别名路径的 LoRA 去重遗漏
值得合并,修复了明确的回归场景。可作为学习 LoRA 模块包装机制的典型示例。
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22
移除 FPQuant 中的死代码
建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。
将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
原始 PR · 作者 cleonard530 · 合并时间 2026-06-04 00:29
迁移四组 CUDA 内核到 libtorch stable ABI
值得精读,特别是 stable ABI 适配的模式(如使用 STD_TORCH_CHECK、STABLE_TORCH_LIBRARY_FRAGMENT 和 TORCH_BOX 宏)。对于贡献者,了解这些模式有助于参与后续迁移步骤。设计上保留 ROCm 专用 QuickReduce 在 legacy 是一个透明决策,需关注后续迁移计划。
原始 PR · 作者 pschlan-amd · 合并时间 2026-06-04 00:09
优雅处理 spinloop 扩展加载失败
简单且必要的健壮性改进,值得快速合并。日志系统使用的规范值得其他开发者参考。
修复负值 max_num_scheduled_tokens 绕过验证的 bug
这是一个清晰的低风险修复,值得合并。虽为微小改动,但体现了配置验证一致性的好实践——避免将验证逻辑分散在条件分支中。建议在类似场景(如 `max_num_seqs` 等字段)也应用相同模式。
参与讨论