← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

run-ci · 544

bugfix · 316

test · 245

performance · 228

refactor · 218

feature · 193

documentation · 132

diffusion · 125

ci · 122

consistency · 99

scheduling · 93

jit-kernel · 92

quant · 84

npu · 76

amd · 55

speculative-decoding · 53

multimodal · 52

deepseek · 45

dependencies · 34

hicache · 27

sgl-kernel · 27

debugging · 26

observability · 26

moe · 23

lora · 22

kv-cache · 14

blackwell · 13

security · 9

ray · 5

hisparse · 4

model-gateway · 4

cpu · 3

macos · 3

intel · 2

mamba · 2

xpu · 2

benchmark · 1

docker · 1

infra · 1

mlx · 1

modelexpress · 1

piecewise-cuda-graph · 1

unified-radix-tree · 1

vlm · 1

聚合结果

blackwell 相关 PR

2026-04-14

#22517 Use reshape instead of contiguous().view() in TRTLLMHAAttnBackend

作者 merrymercy · 合并时间 2026-04-14 05:29

重构重要性 3.00 洞察度 4.00

将TRT-LLM注意力后端中的contiguous().view()替换为reshape()，避免不必要的内存复制。

refactor performance run-ci blackwell

该PR变更简单直接，值得快速浏览以了解reshape替换的优化思路。但更值得关注的是review中提出的FP8转换逻辑不一致问题，建议后续跟进修复。对于学习PyTorch张量操作优化的工程师，这是一个很好的小案例。

查看完整分析 GitHub 原始 PR

2026-04-13

#22204 [RL] Refactor NVFP4 shuffling/swizzling to in-place replacement

作者 zianglih · 合并时间 2026-04-13 10:08

重构重要性 6.00 洞察度 5.00

重构 NVFP4 shuffling/swizzling 为原地替换，修复 FlashInfer TRT-LLM backend 的权重更新问题。

quant refactor npu blackwell run-ci

建议技术管理者和工程师精读此 PR，重点关注重构后的权重管理逻辑和条件检查设计。值得学习的决策包括：如何通过原地替换优化内存使用和性能，以及如何处理量化 backend 的兼容性权衡。同时，应审查条件检查的安全性，确保在权重对齐失败时能优雅处理。

查看完整分析 GitHub 原始 PR

2026-04-12

#22609 [CI] Update B200 est_times to prevent timeouts on slower machine

作者 alisonshao · 合并时间 2026-04-12 12:40

基础设施重要性 4.00 洞察度 2.00

更新 B200 测试的预计执行时间，防止在性能较慢的机器上超时。

run-ci test deepseek blackwell

此 PR 变更简单，无需精读。对于负责 CI 基础设施的工程师，可以关注 est_time 调整的策略和硬件性能差异的分析，作为优化测试分区的参考。

查看完整分析 GitHub 原始 PR

2026-04-09

#22399 [CI] Add GLM-5.1 nightly tests and update Qwen3.5 model

作者 Kangyan-Zhou · 合并时间 2026-04-09 08:04

测试重要性 5.00 洞察度 4.00

新增GLM-5.1 FP8夜间测试并更新Qwen3.5模型配置，扩展大模型测试覆盖。

run-ci test blackwell

该PR值得关注，特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计，以及DP-attention在Qwen3.5测试中的集成方式，这反映了项目对多GPU并行策略的测试演进。同时，注意提交历史中的回退操作，了解模型命名一致性的重要性。

查看完整分析 GitHub 原始 PR

2026-04-08

#22127 [Diffusion] Add diffusion NVFP4 scaled-mm correctness test

作者 BBuf · 合并时间 2026-04-08 22:07

测试重要性 6.00 洞察度 5.00

为扩散模型 NVFP4 量化矩阵乘法添加 B200 GPU 正确性测试。

diffusion jit-kernel test blackwell quant

对于技术管理者，建议关注 CI 资源扩展和测试有效性，确保 B200 运行器可用性；对于工程师，该 PR 值得精读以学习量化正确性测试的设计模式，尤其是 DeepGEMM 式数值比较和尺度交织处理，可作为类似硬件特定测试的参考。

查看完整分析 GitHub 原始 PR

#21035 fix: wrap _import_static_state in inference_mode to fix resume on Blackwell

作者 fergusfinn · 合并时间 2026-04-08 17:03

缺陷修复重要性 5.00 洞察度 4.00

修复Blackwell GPU上恢复内存占用时因推理模式张量导致的运行时错误。

bugfix run-ci blackwell

该PR值得精读，尤其是对于处理PyTorch推理模式与缓冲区管理交互的工程师。关注点：1）理解torch.inference_mode()对张量类型和原地操作的影响；2）学习如何通过环境一致性解决硬件特定的运行时错误；3）注意Blackwell GPU上triton attention backend可能引入的隐式类型转换。

查看完整分析 GitHub 原始 PR

2026-04-06

#21649 fix: TRT-LLM MHA CUDA illegal address with EAGLE v2 + DP attention

作者 Kangyan-Zhou · 合并时间 2026-04-06 00:41

缺陷修复重要性 6.00 洞察度 7.00

修复TRT-LLM MHA在EAGLE v2推测解码+DP注意力下因批次大小不一致导致的CUDA非法地址错误。

bugfix run-ci blackwell speculative-decoding consistency

该PR值得精读，尤其关注：1) DP注意力下批次大小不一致的根本原因分析；2) 从forward_batch.batch_size到元数据推导的设计决策，体现了与其他后端行为对齐的架构一致性；3) review中关于填充目的和注意力独立性的讨论，有助于理解分布式推理中的数据流设计。

查看完整分析 GitHub 原始 PR

2026-04-04

#17707 Add dsv3 router gemm benchmark on blackwell

作者 harrisonlimh · 合并时间 2026-04-04 16:18

性能优化重要性 6.00 洞察度 7.00

在 BlackWell 架构上添加 DeepSeekV3 router gemm 基准测试并集成 flashinfer 内核以优化性能。

deepseek performance run-ci blackwell

建议技术管理者精读此 PR，以了解内核集成策略和性能权衡。工程师应关注 `deepseek_v2.py` 中的条件切换逻辑和 PDL 设置决策，这些是设计关键点。基准测试脚本可作为模板用于其他内核对比。

查看完整分析 GitHub 原始 PR

第 1 / 2 页 · 共 13 条

1 2 下一页