Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-17

#20284 [Nemotron] Small reasoning parser fix

原始 PR · 作者 roikoren755 · 合并时间 2026-03-17 04:29

缺陷修复重要性 4.00 洞察度 4.00

修复Nemotron推理解析器在纯推理输出时内容为空的问题，添加force_nonempty_content选项。

该PR值得快速浏览，重点关注force_nonempty_content的设计决策：它通过参数化而非硬编码的方式解决空内容问题，保持了向后兼容性。对于处理模型输出解析的开发者，可以学习这种通过交换字段内容来增强健壮性的模式。同时，建议查看新增的单元测试，了解如何全面测试解析器的各种边界情况。

bugfixrun-ciconsistency

#19548 fix: support PP2+CP8+TP8 (PP with context parallelism)

原始 PR · 作者 whybeyoung · 合并时间 2026-03-17 00:51

缺陷修复重要性 6.00 洞察度 5.00

修复调度器以支持PP与CP并行，解决H20配置下PP2+CP8+TP8的通信问题。

建议技术管理者和工程师精读`scheduler_pp_mixin.py`中的通信逻辑修改，特别是CP广播的添加，以理解分布式数据同步机制。同时关注`server_args.py`中的配置检查变化，确保在启用PP与CP时正确设置`enable_nsa_prefill_context_parallel`等变量，并留意未解决的`attn_cp_size`讨论。

bugfixrun-cischeduling

2026-03-16

#20646 [Utils] Move network/socket utilities from `common.py` to `network.py`

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-16 11:35

重构重要性 6.00 洞察度 5.00

将网络工具函数从common.py移至network.py，提升代码模块化。

建议精读此PR以理解代码组织的最佳实践，特别是关注不重新导出的设计决策，以及如何安全地重构跨多个文件的导入。

refactorrun-cimodel-gateway

2026-03-12

#19903 Enable Piecewise CUDA Graph for NemotronH Hybrid (Mamba+Attention) Models

原始 PR · 作者 vedantjh2 · 合并时间 2026-03-12 09:16

缺陷修复重要性 6.00 洞察度 7.00

修复 NemotronH 混合模型 PCG 禁用问题，实现高达 10.5% 的吞吐量提升。

建议技术管理者和工程师精读此 PR，重点关注 split op 的设计如何平衡 CUDA graph 捕获和动态形状处理，以及 `layer_id` 对齐策略在混合架构中的通用性。代码变更虽小，但涉及底层优化和兼容性权衡。

bugfixperformancerefactor

2026-03-11

#19537 [FlashInfer v0.6.4] [RL] Integrate FlashInfer mxfp8 gemm, MoE, and routed MoE

原始 PR · 作者 zianglih · 合并时间 2026-03-11 06:37

功能重要性 7.00 洞察度 6.00

集成FlashInfer MXFP8 GEMM、MoE和路由MoE，扩展量化支持与性能优化。

建议技术管理者和工程师精读此PR，重点关注FlashInfer MXFP8集成的设计决策，特别是权重对齐逻辑（如align_mxfp8_moe_weights_for_flashinfer_trtllm）和torch编译兼容性处理（自定义op包装）。这些设计对高性能推理后端优化有借鉴价值。

featureperformancequant

2026-03-10

#20081 [Diffusion] map each prompt to corresponding image in multi-prompt scenario

原始 PR · 作者 RuixiangMa · 合并时间 2026-03-10 16:58

功能重要性 6.00 洞察度 6.00

为扩散模型图像编辑功能添加多提示与多图像的映射支持。

该 PR 值得精读，尤其关注 `per_prompt_images` 的设计决策和错误处理机制。建议工程师重点查看 `image_encoding.py` 中的循环编码逻辑，以理解多提示场景下的性能权衡；技术管理者可评估通用性设计对其他模型适配的指导意义。

diffusionfeaturetest

#20200 [Diffusion][Bugfix] Fix flux2 lora

原始 PR · 作者 RuixiangMa · 合并时间 2026-03-10 16:57

缺陷修复重要性 6.00 洞察度 5.00

修复Flux2 LoRA加载以支持AI Toolkit/ComfyUI训练的模型。

建议技术管理者关注新格式检测的实现，特别是命名映射逻辑，可作为未来扩展其他LoRA格式的参考模板。工程师值得精读_convert_ai_toolkit_flux_lora函数，理解权重转换的设计决策和潜在改进点。

bugfixdiffusiontest

2026-03-08

#18776 add mixed chunk unit test and make small refactors

原始 PR · 作者 glenliu21 · 合并时间 2026-03-08 19:56

测试重要性 4.00 洞察度 3.00

添加混合分块预填充单元测试并进行小重构

该PR值得快速浏览以了解混合分块预填充的测试用例，但设计决策较简单，无需深入精读。建议工程师关注test_mixed_chunk_prefill_budgets方法中的预算计算逻辑，以理解混合分块行为；对于代码重构部分，可借鉴defaults.update(kwargs)模式提升测试灵活性。

run-citestrefactor

第 355 / 357 页 · 共 2850 条

上一页 1 … 353 354 355 356 357 下一页