Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 15:44 同步状态:空闲 下次计划:2026-06-07 16:44

PR 列表

更多筛选
2026-03-31

#21745 Fix disaggregation hybrid attention ci

原始 PR · 作者 ispobock · 合并时间 2026-03-31 16:22

测试 重要性 2.00 洞察度 2.00

降低disaggregation hybrid attention CI测试的accuracy阈值以解决flaky问题。

该PR简单,值得快速浏览以了解CI调整;关注点在于TODO注释和issue #21744的后续处理。

缺陷修复 重要性 4.00 洞察度 2.00

移除导致CI超时的msgm-en和mmlu测试,替换为gsm8k测试。

对于CI维护者和测试工程师,建议关注此PR以了解测试策略的调整。变更相对简单,无需深入代码审查,但应留意测试覆盖的变化,并考虑在后续PR中补充其他评估或验证新阈值的合理性。

性能优化 重要性 6.00 洞察度 4.00

使用 tgemm.mm 自动选择 GEMM 内核,优化 MoEGate 路由器性能,提升推理速度。

该 PR 值得精读,特别是关注内核自动选择机制 tgemm.mm 的使用方式和性能基准测试方法。对于从事性能优化的工程师,可以学习如何利用分发器简化内核管理并评估优化效果。

缺陷修复 重要性 4.00 洞察度 3.00

修复NPU内存缓存冲突,并更新Triton不支持的后端列表。

该PR变更直接,适合快速浏览以了解NPU内存管理优化。建议关注empty_cache调用位置的调整,以及如何避免类似的内存冲突问题。

功能 重要性 5.00 洞察度 4.00

新增强制禁用FlashInfer allreduce fusion的命令行参数。

该PR值得快速浏览,以了解如何添加命令行参数和覆盖逻辑。设计决策是将禁用逻辑放在`_handle_model_specific_adjustments`中以确保正确顺序,这对于类似配置覆盖场景有参考价值。对于核心开发者,可关注此模式以避免未来配置冲突。

#21664 [diffusion] Fix Flux.2

原始 PR · 作者 yhyang201 · 合并时间 2026-03-31 14:14

缺陷修复 重要性 6.00 洞察度 5.00

修复 Flux.2 在 TP>1 时权重加载错误导致空白图像的问题。

该 PR 值得精读,特别是 _patch_to_out_weight_loader 方法的设计,展示了如何适配并行线性层的非标准输入布局。工程师可以学习权重加载器的自定义技巧和 Tensor Parallelism 下的错误排查思路。

缺陷修复 重要性 5.00 洞察度 5.00

修复 AMD gfx950 上的 Triton 编译断言错误,使用标量分支替换指针级 tl.where。

该 PR 值得精读,特别是对于关注 AMD Triton 兼容性或 JIT kernel 优化的工程师。关键设计决策包括:如何在不增加加载次数的前提下避免指针级选择,以及利用标量均匀性消除分支成本。建议结合历史 PR 如 #21691 和 #20974,了解跨硬件的性能修复模式。

#20864 [Perf]Remove H2D for Qwen3.5 SpecV2

原始 PR · 作者 Chen-0210 · 合并时间 2026-03-31 11:54

性能优化 重要性 6.00 洞察度 5.00

优化Qwen3.5 SpecV2推测解码路径,移除不必要的Host-to-Device传输以提升性能。

建议技术管理者和工程师精读此PR,关注其性能优化技巧和基准测试方法。设计决策中值得学习的是如何识别并移除隐式H2D传输,以及通过条件分支优化特定场景的性能。

参与讨论