Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

amd 相关 PR

2026-06-06
缺陷修复 重要性 7.04 洞察度 6.00

强制 interleave MoE 布局修复 AMD TP>1 精度崩溃

建议精读。该 PR 展示了如何快速定位硬件后端内核 bug、设计 workaround 并验证精度恢复的完整流程,对于处理类似跨平台兼容性问题有参考价值。同时注意 `.to(torch.int32)` 类的问题在类型敏感性高的系统中很典型。

2026-06-05
功能 重要性 7.12 洞察度 6.00

AMD Qwen3.5 alt stream 支持与性能调优

值得精读,尤其是如何通过环境变量和 server args 精细控制子模块行为,并在性能与兼容性之间做出权衡。设计思路可推广到其他模型的类似优化。

#27376 [AMD] update ROCm AITER commit

原始 PR · 作者 bingxche · 合并时间 2026-06-05 18:42

基础设施 重要性 3.18 洞察度 3.00

更新 ROCm Dockerfile 中 AITER 默认 commit hash

该 PR 为常规的依赖更新,内容简单直接。建议在后续的 ROCm Dockerfile 重构中考虑将公共构建参数提取为全局 `ARG`,以减少重复和维护成本。

缺陷修复 重要性 3.30 洞察度 3.00

修复 AMD CI 分区 3 被跳过的问题

该 PR 值得合入,它修复了一个静默跳过测试的配置 bug,且修改量极小(一行)。无需深入代码审查,但应确保新增分区 3 的测试在后续 CI 运行中稳定通过。

缺陷修复 重要性 5.16 洞察度 3.00

修复 AMD CI 上 aiter 贪婪采样越界 token 问题

此 PR 值得快速合并。变更简洁、目标明确、风险可控。建议合并后跟踪 aiter 上游修复进度,待修复后移除该环境和相关测试变通。同时,建议根据 hubertlu-tw 的建议增强 `test_aiter_greedy_sample_amd.py` 测试覆盖,防止类似回归再次发生。

2026-06-04
功能 重要性 7.29 洞察度 5.00

为 AITER fused_moe 添加可选 kwargs 和 no_combine 支持

建议快速合并。PR 设计清晰,测试全面。关键设计决策(functools.cache 特征探测、条件 kwargs 转发、空输入适配)值得其他 runner 参考。

性能优化 重要性 6.68 洞察度 7.00

移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换

该 PR 值得精读,特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策(在 HIP 路径绕过昂贵的类型转换,同时在 Triton kernel 中添加显式类型处理)展示了平台特定优化的典型方法。性能数据详实,aiter 库的使用也值得关注。