#21315 [AMD] Fused rope kv store
原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-30 15:05
针对 AMD GPU 的 RoPE 与 KV 缓存融合性能优化。
建议精读此 PR,关注融合 Triton 内核的设计决策、避免双重应用 RoPE 的条件逻辑(如 `enable_fused_set_kv_buffer` 检查),以及 HIP 路径集成方式,这些对于理解性能优化和硬件特定支持有重要参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-30 15:05
针对 AMD GPU 的 RoPE 与 KV 缓存融合性能优化。
建议精读此 PR,关注融合 Triton 内核的设计决策、避免双重应用 RoPE 的条件逻辑(如 `enable_fused_set_kv_buffer` 检查),以及 HIP 路径集成方式,这些对于理解性能优化和硬件特定支持有重要参考价值。
为Intel AMX实现MXFP4 GEMM内核,以支持GPT OSS系列模型推理。
建议技术管理者精读gemm_fp8.cpp中的AVX512实现和vec.h中的MXFP4转换逻辑,以了解低级优化技巧。工程师可关注tinygemm接口设计,评估其复用价值。
为 Qwen3-VL 和 Qwen3-Omni 添加 CPU 旋转位置嵌入核函数以优化性能。
建议精读此 PR,特别是核函数实现中的向量化技巧和并行化策略,对于优化 CPU 推理性能有借鉴价值。关注 `rope.cpp` 中的算法设计和 `utils.py` 中的条件调度逻辑。
修复 topk softmax 性能问题,改用 partial sort 减少排序范围。
该 PR 变更简单直接,建议工程师快速浏览以学习 partial sort 的应用,但无需深入分析设计决策,可重点关注排序边界条件的处理。
原始 PR · 作者 aramasethu · 合并时间 2026-03-30 14:40
为SGLang服务器添加可选的MFU相关Prometheus指标,以提供GPU性能估计。
建议工程师精读scheduler_metrics_mixin.py中的估计逻辑和metrics_collector.py中的计数器实现,关注门控设计和性能权衡;技术管理者可参考此PR以可选方式扩展可观测性功能的策略。
改用离线量化检查点提升MXFP8 Gemm CI测试稳定性。
建议快速审查并合并,以解决CI不稳定性问题。值得关注的设计决策:使用离线量化检查点避免在线量化路径的不稳定性,这是一种实用解决方案,但未来应考虑优化在线量化以提高通用性。同时,关注Triton测试的性能优化进展。
更新贡献指南,添加新人入门资源链接,包括Mini-SGLang和GTC-2024训练实验室。
此PR值得新贡献者或文档维护者快速浏览以了解新增资源,但无需深入代码分析;关注审核中的一致性改进和错误纠正即可。
原始 PR · 作者 polisettyvarma · 合并时间 2026-03-30 13:36
为Intel GPU(XPU)启用DeepSeek R1模型的FP8精度推理支持。
该PR值得精读,关注设备抽象的设计决策,如使用get_device()和torch.get_device_module()实现多设备兼容的模式。建议工程师学习如何优雅处理硬件差异,并注意review中提到的潜在风险点,特别是测试覆盖和设备特定逻辑的适配。
参与讨论