MoRI EP 自动从 MoE 权重 dtype 检测 dispatch quantization 类型,简化用户配置。
建议精读 `moriep.py` 中的 `set_quant_config` 和懒初始化设计,以理解如何实现自动检测和延迟创建 MoRI 操作,这对于学习量化路径选择机制和 AMD MoE 优化有价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
MoRI EP 自动从 MoE 权重 dtype 检测 dispatch quantization 类型,简化用户配置。
建议精读 `moriep.py` 中的 `set_quant_config` 和懒初始化设计,以理解如何实现自动检测和延迟创建 MoRI 操作,这对于学习量化路径选择机制和 AMD MoE 优化有价值。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-25 13:38
为 AMD 平台的多头注意力添加 FP8 KV 缓存支持,提升推理性能。
建议关注量化优化和注意力机制的开发者精读此 PR。值得关注的设计决策包括:在 forward_extend 中保持 q 精度为 bf16 或 fp16 以优化性能(如 commit 消息所述),以及如何传递缩放因子处理 fp8 缓存。此外,应注意 review 中讨论的未解决问题,如原生 decode kernel 支持。
修改KV缓存数据类型设置,临时绕过B200 GPU启用DP时的性能下降。
建议性能优化工程师精读此PR,了解workaround的设计权衡,同时关注后续根本修复(Issue #21011)以保持代码简洁。对于处理类似硬件性能问题的开发者,此变更提供了临时调整默认配置的范例。
修复 CI 取消工作流程标签错误,确保 bypass-maintenance 标签生效。
此 PR 变更简单,无需深入精读。对于 CI 维护者,值得关注标签命名的一致性,以避免类似错误;对于其他工程师,可作为小规模 bugfix 的参考。
添加 CI 取消工作流程的高优先级 PR 取消选项,优化资源管理。
由于变更较小且无争议,无需精读整个 PR;值得关注的点是 CI 工作流中参数传递和标签检查的实现模式,可作为类似优化的参考。
修复 disaggregation 测试中的 bootstrap 端口冲突,避免 CI 失败。
对于测试维护者和 CI 工程师,建议快速浏览以了解端口配置模式;对于其他开发者,变更简单,无需深度关注。
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-03-25 11:48
修复AMD CI工作流中stage-b作业依赖名称错误,确保测试正常执行。
该PR变更简单直接,无需深度审查。技术管理者可快速批准以确保CI稳定;工程师可参考此PR了解CI依赖命名规范,但无复杂设计决策值得学习。
修改缓存刷新重试函数为超时轮询机制,提升CI测试的稳定性。
对于关注CI稳定性的团队,本PR值得简要查看以了解测试工具的改进。设计上从重试次数到超时轮询的转变体现了对异步操作处理的优化,但需注意review中指出的超时精确性问题,可能需要在未来修正。
参与讨论