Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

blackwell 相关 PR

2026-06-06
2026-06-05
性能优化 重要性 6.47 洞察度 5.00

将 FlashMLA KV 索引构建并行化,长上下文延迟从 15us 降至 1-2us

值得精读 kernel 层面的并行化模式。此 PR 展示了如何通过简单的 grid 维度扩展将显式循环转换为 GPU 块级并行,是注意力后端性能优化的典型技巧。

#26496 Changes for SM120 perf and usability for NVFP4

原始 PR · 作者 b8zhong · 合并时间 2026-06-05 06:29

性能优化 重要性 7.07 洞察度 5.00

SM120 NVFP4 性能与可用性优化

值得精读,该 PR 展示了针对特定硬件 (SM120) 进行系统性性能优化的典型方法:从后端选择、autotune 触发、kernel 配置到量化修复,覆盖了整个推理链路。设计权衡(如后端切换原因、配置一致性处理)有参考价值。建议重点关注 `_should_run_flashinfer_autotune` 和 `try_get_optimal_moe_config` 的变更逻辑。

2026-06-04
缺陷修复 重要性 6.07 洞察度 4.00

GLM-5 在 Blackwell 上改用 trtllm MHA 内核,移除 FA4 workaround

建议阅读该 PR 以理解 GLM-5 在 Blackwell 的注意力内核选型历史。核心设计决策是:在外部内核(FA4)不稳定的情况下,等待上游修复后改用更稳定的 trtllm 实现,而非长期维护 workaround。这一决策思路值得在依赖外部库时参考。

2026-06-03
缺陷修复 重要性 7.02 洞察度 6.00

修复 trtllm_mha 在 FROZEN_KV MTP 下的 SWA 越界崩溃

该 PR 是一个教科书式的精确 bugfix:定位清晰、修改最小、逻辑自洽、参考了既有实现(FlashInfer)。值得关注的设计决策是「读取 allocator 而非 pool」作为稳定信源的思路,以及防御性 `getattr` 处理。推荐精读 `_resolve_swa_kv_pool` 方法和相关的守卫条件调整。

2026-06-02
文档 重要性 7.18 洞察度 6.00

GLM-4.7 文档新增 Blackwell GPU 和 NVFP4 量化支持

该 PR 值得精读,尤其是 `glm-47-deployment.jsx` 中 SUPPORT 矩阵驱动的约束逻辑,是一种将硬件兼容性规则集中管理、自动 fallback 的可复用文档组件设计模式。对于负责部署指南和交互式命令生成器的工程师具有参考价值。建议在类似文档场景中推广。

功能 重要性 7.71 洞察度 5.00

启用FlashInfer GDN MTP验证于SM100+

建议关注 gdn_flashinfer.py 中 _mtp_bf16_adapted 函数的适配技巧(中间状态切片、A_log float 转换),以及测试文件如何通过抽取公共参数和工具函数降低重复代码。该 PR 设计简洁,适合作为跨硬件后端子类化的参考案例。

功能 重要性 9.18 洞察度 6.00

为DeepSeek-V4推理添加SM120桌面Blackwell GPU支持

此PR值得精读,特别是如果您关注SM120/Blackwell桌面GPU上的推理或需要参考Triton内核与CUDA图兼容性设计。Triton MoE内核的融合去量化方法具有通用性。讨论中关于函数别名、环境设置和自动检测的争议也是良好的工程实践案例。