Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

blackwell 相关 PR

2026-04-14

#22517 Use reshape instead of contiguous().view() in TRTLLMHAAttnBackend

作者 merrymercy · 合并时间 2026-04-14 05:29

重构 重要性 3.00 洞察度 4.00

将TRT-LLM注意力后端中的contiguous().view()替换为reshape(),避免不必要的内存复制。

refactor performance run-ci blackwell

该PR变更简单直接,值得快速浏览以了解reshape替换的优化思路。但更值得关注的是review中提出的FP8转换逻辑不一致问题,建议后续跟进修复。对于学习PyTorch张量操作优化的工程师,这是一个很好的小案例。

2026-04-13

#22204 [RL] Refactor NVFP4 shuffling/swizzling to in-place replacement

作者 zianglih · 合并时间 2026-04-13 10:08

重构 重要性 6.00 洞察度 5.00

重构 NVFP4 shuffling/swizzling 为原地替换,修复 FlashInfer TRT-LLM backend 的权重更新问题。

quant refactor npu blackwell run-ci

建议技术管理者和工程师精读此 PR,重点关注重构后的权重管理逻辑和条件检查设计。值得学习的决策包括:如何通过原地替换优化内存使用和性能,以及如何处理量化 backend 的兼容性权衡。同时,应审查条件检查的安全性,确保在权重对齐失败时能优雅处理。

2026-04-12

#22609 [CI] Update B200 est_times to prevent timeouts on slower machine

作者 alisonshao · 合并时间 2026-04-12 12:40

基础设施 重要性 4.00 洞察度 2.00

更新 B200 测试的预计执行时间,防止在性能较慢的机器上超时。

run-ci test deepseek blackwell

此 PR 变更简单,无需精读。对于负责 CI 基础设施的工程师,可以关注 est_time 调整的策略和硬件性能差异的分析,作为优化测试分区的参考。

2026-04-09

#22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model

作者 Kangyan-Zhou · 合并时间 2026-04-09 08:04

测试 重要性 5.00 洞察度 4.00

新增GLM-5.1 FP8夜间测试并更新Qwen3.5模型配置,扩展大模型测试覆盖。

run-ci test blackwell

该PR值得关注,特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计,以及DP-attention在Qwen3.5测试中的集成方式,这反映了项目对多GPU并行策略的测试演进。同时,注意提交历史中的回退操作,了解模型命名一致性的重要性。

2026-04-08

#22127 [Diffusion] Add diffusion NVFP4 scaled-mm correctness test

作者 BBuf · 合并时间 2026-04-08 22:07

测试 重要性 6.00 洞察度 5.00

为扩散模型 NVFP4 量化矩阵乘法添加 B200 GPU 正确性测试。

diffusion jit-kernel test blackwell quant

对于技术管理者,建议关注 CI 资源扩展和测试有效性,确保 B200 运行器可用性;对于工程师,该 PR 值得精读以学习量化正确性测试的设计模式,尤其是 DeepGEMM 式数值比较和尺度交织处理,可作为类似硬件特定测试的参考。

缺陷修复 重要性 5.00 洞察度 4.00

修复Blackwell GPU上恢复内存占用时因推理模式张量导致的运行时错误。

bugfix run-ci blackwell

该PR值得精读,尤其是对于处理PyTorch推理模式与缓冲区管理交互的工程师。关注点:1)理解torch.inference_mode()对张量类型和原地操作的影响;2)学习如何通过环境一致性解决硬件特定的运行时错误;3)注意Blackwell GPU上triton attention backend可能引入的隐式类型转换。

2026-04-06

#21649 fix: TRT-LLM MHA CUDA illegal address with EAGLE v2 + DP attention

作者 Kangyan-Zhou · 合并时间 2026-04-06 00:41

缺陷修复 重要性 6.00 洞察度 7.00

修复TRT-LLM MHA在EAGLE v2推测解码+DP注意力下因批次大小不一致导致的CUDA非法地址错误。

bugfix run-ci blackwell speculative-decoding consistency

该PR值得精读,尤其关注:1) DP注意力下批次大小不一致的根本原因分析;2) 从forward_batch.batch_size到元数据推导的设计决策,体现了与其他后端行为对齐的架构一致性;3) review中关于填充目的和注意力独立性的讨论,有助于理解分布式推理中的数据流设计。

2026-04-04

#17707 Add dsv3 router gemm benchmark on blackwell

作者 harrisonlimh · 合并时间 2026-04-04 16:18

性能优化 重要性 6.00 洞察度 7.00

在 BlackWell 架构上添加 DeepSeekV3 router gemm 基准测试并集成 flashinfer 内核以优化性能。

deepseek performance run-ci blackwell

建议技术管理者精读此 PR,以了解内核集成策略和性能权衡。工程师应关注 `deepseek_v2.py` 中的条件切换逻辑和 PDL 设置决策,这些是设计关键点。基准测试脚本可作为模板用于其他内核对比。