Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 15:44 同步状态：空闲下次计划：2026-06-07 16:44

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#21745 Fix disaggregation hybrid attention ci

原始 PR · 作者 ispobock · 合并时间 2026-03-31 16:22

测试重要性 2.00 洞察度 2.00

降低disaggregation hybrid attention CI测试的accuracy阈值以解决flaky问题。

该PR简单，值得快速浏览以了解CI调整；关注点在于TODO注释和issue #21744的后续处理。

bugfixtestci

#21733 [CI]Remove msgm-en and mmlu tests which cause timeout

原始 PR · 作者 Fridge003 · 合并时间 2026-03-31 16:10

缺陷修复重要性 4.00 洞察度 2.00

移除导致CI超时的msgm-en和mmlu测试，替换为gsm8k测试。

对于CI维护者和测试工程师，建议关注此PR以了解测试策略的调整。变更相对简单，无需深入代码审查，但应留意测试覆盖的变化，并考虑在后续PR中补充其他评估或验证新阈值的合理性。

bugfixtestci

#21657 [AMD] Use tgemm.mm for MoEGate router gemm in deepseek_v2.py

原始 PR · 作者 1am9trash · 合并时间 2026-03-31 15:55

性能优化重要性 6.00 洞察度 4.00

使用 tgemm.mm 自动选择 GEMM 内核，优化 MoEGate 路由器性能，提升推理速度。

该 PR 值得精读，特别是关注内核自动选择机制 tgemm.mm 的使用方式和性能基准测试方法。对于从事性能优化的工程师，可以学习如何利用分发器简化内核管理并评估优化效果。

amdperformancerefactor

#21507 [NPU] fix conflict between empty_cache and use_mem_pool

原始 PR · 作者 xiazhahe · 合并时间 2026-03-31 15:37

缺陷修复重要性 4.00 洞察度 3.00

修复NPU内存缓存冲突，并更新Triton不支持的后端列表。

该PR变更直接，适合快速浏览以了解NPU内存管理优化。建议关注empty_cache调用位置的调整，以及如何避免类似的内存冲突问题。

bugfixnpu

#21446 Add explicit disable flag for FlashInfer allreduce fusion

原始 PR · 作者 mmangkad · 合并时间 2026-03-31 15:15

功能重要性 5.00 洞察度 4.00

新增强制禁用FlashInfer allreduce fusion的命令行参数。

该PR值得快速浏览，以了解如何添加命令行参数和覆盖逻辑。设计决策是将禁用逻辑放在`_handle_model_specific_adjustments`中以确保正确顺序，这对于类似配置覆盖场景有参考价值。对于核心开发者，可关注此模式以避免未来配置冲突。

feature

#21664 [diffusion] Fix Flux.2

原始 PR · 作者 yhyang201 · 合并时间 2026-03-31 14:14

缺陷修复重要性 6.00 洞察度 5.00

修复 Flux.2 在 TP>1 时权重加载错误导致空白图像的问题。

该 PR 值得精读，特别是 _patch_to_out_weight_loader 方法的设计，展示了如何适配并行线性层的非标准输入布局。工程师可以学习权重加载器的自定义技巧和 Tensor Parallelism 下的错误排查思路。

bugfixdiffusionquant

#21621 [AMD] Fix CI multimodal-gen-test-1-gpu-amd for gen model

原始 PR · 作者 yichiche · 合并时间 2026-03-31 14:02

缺陷修复重要性 5.00 洞察度 5.00

修复 AMD gfx950 上的 Triton 编译断言错误，使用标量分支替换指针级 tl.where。

该 PR 值得精读，特别是对于关注 AMD Triton 兼容性或 JIT kernel 优化的工程师。关键设计决策包括：如何在不增加加载次数的前提下避免指针级选择，以及利用标量均匀性消除分支成本。建议结合历史 PR 如 #21691 和 #20974，了解跨硬件的性能修复模式。

bugfixjit-kernelamd

#20864 [Perf]Remove H2D for Qwen3.5 SpecV2

原始 PR · 作者 Chen-0210 · 合并时间 2026-03-31 11:54

性能优化重要性 6.00 洞察度 5.00

优化Qwen3.5 SpecV2推测解码路径，移除不必要的Host-to-Device传输以提升性能。

建议技术管理者和工程师精读此PR，关注其性能优化技巧和基准测试方法。设计决策中值得学习的是如何识别并移除隐式H2D传输，以及通过条件分支优化特定场景的性能。

performancespeculative-decodingrefactor

第 321 / 357 页 · 共 2856 条

上一页 1 … 319 320 321 322 323 … 357 下一页