Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 21:37 同步状态：空闲下次计划：2026-06-13 22:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-11

#19537 [FlashInfer v0.6.4] [RL] Integrate FlashInfer mxfp8 gemm, MoE, and routed MoE

原始 PR · 作者 zianglih · 合并时间 2026-03-11 06:37

功能重要性 7.00 洞察度 6.00

集成FlashInfer MXFP8 GEMM、MoE和路由MoE，扩展量化支持与性能优化。

建议技术管理者和工程师精读此PR，重点关注FlashInfer MXFP8集成的设计决策，特别是权重对齐逻辑（如align_mxfp8_moe_weights_for_flashinfer_trtllm）和torch编译兼容性处理（自定义op包装）。这些设计对高性能推理后端优化有借鉴价值。

featureperformancequant

2026-03-10

#20081 [Diffusion] map each prompt to corresponding image in multi-prompt scenario

原始 PR · 作者 RuixiangMa · 合并时间 2026-03-10 16:58

功能重要性 6.00 洞察度 6.00

为扩散模型图像编辑功能添加多提示与多图像的映射支持。

该 PR 值得精读，尤其关注 `per_prompt_images` 的设计决策和错误处理机制。建议工程师重点查看 `image_encoding.py` 中的循环编码逻辑，以理解多提示场景下的性能权衡；技术管理者可评估通用性设计对其他模型适配的指导意义。

diffusionfeaturetest

#20200 [Diffusion][Bugfix] Fix flux2 lora

原始 PR · 作者 RuixiangMa · 合并时间 2026-03-10 16:57

缺陷修复重要性 6.00 洞察度 5.00

修复Flux2 LoRA加载以支持AI Toolkit/ComfyUI训练的模型。

建议技术管理者关注新格式检测的实现，特别是命名映射逻辑，可作为未来扩展其他LoRA格式的参考模板。工程师值得精读_convert_ai_toolkit_flux_lora函数，理解权重转换的设计决策和潜在改进点。

bugfixdiffusiontest

2026-03-08

#18776 add mixed chunk unit test and make small refactors

原始 PR · 作者 glenliu21 · 合并时间 2026-03-08 19:56

测试重要性 4.00 洞察度 3.00

添加混合分块预填充单元测试并进行小重构

该PR值得快速浏览以了解混合分块预填充的测试用例，但设计决策较简单，无需深入精读。建议工程师关注test_mixed_chunk_prefill_budgets方法中的预算计算逻辑，以理解混合分块行为；对于代码重构部分，可借鉴defaults.update(kwargs)模式提升测试灵活性。

run-citestrefactor

#20091 [Diffusion] chore: ensure CFG Zero Star numerical stability for Helios model

原始 PR · 作者 RuixiangMa · 合并时间 2026-03-08 14:25

缺陷修复重要性 4.00 洞察度 3.00

在Helios模型的optimized_scale函数中添加.float()转换，确保bf16下的CFG Zero Star数值稳定性。

此PR值得快速浏览以了解数值稳定性最佳实践和与上游diffusers库的同步，但变更简单，无需深入分析设计决策；关注点在于代码清晰度与内存效率的权衡讨论。

diffusionbugfixrefactor

2026-03-06

#19223 fix: use consistent time denominator for throughput metrics in bench_one_batch_server

原始 PR · 作者 AjAnubolu · 合并时间 2026-03-06 07:58

缺陷修复重要性 3.00 洞察度 4.00

修复 bench_one_batch_server 中吞吐量指标计算的分母不一致问题，统一使用总延迟。

由于此 PR 已被回滚，不建议精读，但可以关注 issue #18712 和后续 revert PR 21276 以了解完整的讨论和决策过程。对于工程师，可学习吞吐量指标计算的设计决策，并注意在类似更改中加强测试验证。

bugfixtestperformance

#19899 [Spec] Refactor NaN/OOB checks to async `maybe_detect_*` with env-var control

原始 PR · 作者 kpham-sgl · 合并时间 2026-03-06 05:51

重构重要性 6.00 洞察度 6.00

重构NaN/OOB检测为异步检查，避免GPU-CPU同步，提升Eagle性能。

值得精读，特别是对从事GPU性能优化和异步编程的工程师。重点关注`maybe_detect_nan`/`maybe_detect_oob`函数的设计，以及环境变量与CLI参数的集成方式，以学习如何平衡调试工具和性能开销。

refactorperformancedebugging

2026-03-04

#19718 Support `triton_kernels` for GPT-OSS on SM120

原始 PR · 作者 b8zhong · 合并时间 2026-03-04 06:14