Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-13

#20908 fix(PD): respect pause_generation in disagg event loops

原始 PR · 作者 lawrence-harmonic · 合并时间 2026-04-13 09:07

缺陷修复重要性 6.00 洞察度 5.00

修复 disaggregation 事件循环中 pause_generation 失效的 bug，确保调度器暂停时生成停止。

该 PR 值得精读，特别是对于涉及调度和 disaggregation 模块的工程师。关注点包括：如何在事件循环中优雅地处理暂停状态，以及确保队列处理在暂停时继续的设计决策。

bugfixrun-cischeduling

#21875 fix: streaming session race condition + some metrics

原始 PR · 作者 ishandhanani · 合并时间 2026-04-13 09:05

缺陷修复重要性 6.00 洞察度 6.00

修复流式会话竞态条件和内存泄漏，添加指标监控。

该 PR 值得精读，尤其是对于负责内存管理和会话调度的工程师。关注 session_controller.py 中的 close_on_finish 机制和 session_aware_cache.py 中的 KV 释放优化，这些设计决策在处理竞态条件和内存泄漏方面具有借鉴意义。建议结合单元测试理解修复的具体场景。

bugfixrun-ciobservability

#22594 diffusion: fix layerwise offload for ModelOpt quantized DiTs

原始 PR · 作者 BBuf · 合并时间 2026-04-13 08:01

缺陷修复重要性 5.00 洞察度 6.00

修复 ModelOpt FP8 量化 DiTs 的 layerwise offload，确保权重布局对齐和步幅保留。

建议工程师精读此 PR，特别是 `layerwise_offload.py` 中的步幅保留和对齐实现，这是处理量化权重布局与内核要求的关键设计决策。同时，关注 review 中的性能优化点，了解如何高效管理 GPU-CPU 数据传输。

diffusionquantbugfix

#22574 [Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support

原始 PR · 作者 BBuf · 合并时间 2026-04-13 07:57

功能重要性 6.00 洞察度 5.00

为 FLUX.1-dev 扩散模型添加 ModelOpt NVFP4 量化支持，提升性能约 23%。

建议技术管理者和工程师精读此 PR，重点关注：`build_modelopt_nvfp4_transformer.py` 的设计如何混合 BF16 和 NVFP4 模块以保持数值稳定性；`swap_weight_nibbles` 配置在 `modelopt_quant.py` 中的实现，了解权重布局处理；以及 `prewarm_nvfp4_jit_modules` 在 `denoising.py` 中的优化策略，避免 Dynamo 追踪开销。这些决策对后续量化支持有借鉴意义。

diffusionquantfeature

#21864 [lora] Fix partial MoE rank loading, VL lm_head, strict loading, deepseek on-demand

原始 PR · 作者 klshuster · 合并时间 2026-04-13 07:25

缺陷修复重要性 6.00 洞察度 5.00

修复 LoRA 加载中的四个关键 bug，提升正确性和调试性。

值得精读，特别是对于 LoRA 模块的开发者，可以学习严格加载验证的设计决策、模型感知目标模块解析的实现方式，以及处理部分 MoE 秩加载的底层优化技巧。

bugfixlorarun-ci

#22549 Fix broken streaming response with --incremental-streaming-output

原始 PR · 作者 kpham-sgl · 合并时间 2026-04-13 06:05

缺陷修复重要性 6.00 洞察度 5.00

修复--incremental-streaming-output流式响应文本乱码问题

该PR值得精读，尤其是理解增量流式与累积流式的设计差异。关注_generate_chat_stream中的条件判断逻辑，这是修复的核心。同时，回归测试展示了如何模拟增量流式场景，对测试编写有参考价值。

bugfixrun-ciobservability

#22491 [CI/Docker] Clean up redundant flashinfer cubin downloads

原始 PR · 作者 mmangkad · 合并时间 2026-04-13 03:30

基础设施重要性 2.00 洞察度 2.00

清理 CI 和 Docker 中冗余的 flashinfer cubin 下载步骤，简化构建。

该 PR 变更简单直接，精读价值不大，但可作为基础设施清理的参考。建议关注 flashinfer 依赖管理的最佳实践。

run-cidependencies

2026-04-12

#20082 Enable modelopt quantized FLUX deployment

原始 PR · 作者 Edwardf0t1 · 合并时间 2026-04-12 23:35

功能重要性 6.00 洞察度 5.00

启用ModelOpt FP8量化FLUX扩散模型部署，支持自动检测并重用现有FP8内核。

该PR值得精读，特别是ModelOptFp8Config的忽略列表设计和自动反量化机制，这些是处理异构量化模型的关键决策。工程师可关注如何优雅集成外部量化工具的输出，并借鉴其代码组织方式（如helper函数分离逻辑）。

diffusionquantfeature

第 262 / 357 页 · 共 2850 条

上一页 1 … 260 261 262 263 264 … 357 下一页

sgl-project/sglang

PR 列表

#20908 fix(PD): respect pause_generation in disagg event loops

#21875 fix: streaming session race condition + some metrics

#22594 diffusion: fix layerwise offload for ModelOpt quantized DiTs

#22574 [Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support

#21864 [lora] Fix partial MoE rank loading, VL lm_head, strict loading, deepseek on-demand

#22549 Fix broken streaming response with --incremental-streaming-output

#22491 [CI/Docker] Clean up redundant flashinfer cubin downloads

#20082 Enable modelopt quantized FLUX deployment

参与讨论