Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 10:18 同步状态:空闲 下次计划:2026-04-19 11:18

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-04-13
缺陷修复 重要性 5.00 洞察度 6.00

修复 ModelOpt FP8 量化 DiTs 的 layerwise offload,确保权重布局对齐和步幅保留。

建议工程师精读此 PR,特别是 `layerwise_offload.py` 中的步幅保留和对齐实现,这是处理量化权重布局与内核要求的关键设计决策。同时,关注 review 中的性能优化点,了解如何高效管理 GPU-CPU 数据传输。

#22574 [Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support

作者 BBuf · 合并时间 2026-04-13 07:57

功能 重要性 6.00 洞察度 5.00

为 FLUX.1-dev 扩散模型添加 ModelOpt NVFP4 量化支持,提升性能约 23%。

建议技术管理者和工程师精读此 PR,重点关注:`build_modelopt_nvfp4_transformer.py` 的设计如何混合 BF16 和 NVFP4 模块以保持数值稳定性;`swap_weight_nibbles` 配置在 `modelopt_quant.py` 中的实现,了解权重布局处理;以及 `prewarm_nvfp4_jit_modules` 在 `denoising.py` 中的优化策略,避免 Dynamo 追踪开销。这些决策对后续量化支持有借鉴意义。

缺陷修复 重要性 6.00 洞察度 5.00

修复 LoRA 加载中的四个关键 bug,提升正确性和调试性。

值得精读,特别是对于 LoRA 模块的开发者,可以学习严格加载验证的设计决策、模型感知目标模块解析的实现方式,以及处理部分 MoE 秩加载的底层优化技巧。

缺陷修复 重要性 6.00 洞察度 5.00

修复--incremental-streaming-output流式响应文本乱码问题

该PR值得精读,尤其是理解增量流式与累积流式的设计差异。关注_generate_chat_stream中的条件判断逻辑,这是修复的核心。同时,回归测试展示了如何模拟增量流式场景,对测试编写有参考价值。

2026-04-12

#20082 Enable modelopt quantized FLUX deployment

作者 Edwardf0t1 · 合并时间 2026-04-12 23:35

功能 重要性 6.00 洞察度 5.00

启用ModelOpt FP8量化FLUX扩散模型部署,支持自动检测并重用现有FP8内核。

该PR值得精读,特别是ModelOptFp8Config的忽略列表设计和自动反量化机制,这些是处理异构量化模型的关键决策。工程师可关注如何优雅集成外部量化工具的输出,并借鉴其代码组织方式(如helper函数分离逻辑)。

#22182 [diffusion] model: support LTX2.3 two stage

作者 mickqian · 合并时间 2026-04-12 22:15

功能 重要性 7.00 洞察度 6.00

实现LTX-2.3模型的两阶段生成支持,优化管道配置和序列并行逻辑。

建议工程师仔细阅读管道配置(ltx_2.py)和模型层(ltx_2.py)的变更,关注序列并行设计和注意力掩码逻辑;管理者和设计师可审查性能基准(perf_baselines.json)和兼容性文档更新,以评估对项目路线图的影响。

缺陷修复 重要性 5.00 洞察度 4.00

修复flashinfer_cutlass后端MXFP8量化权重更新问题,恢复双缓冲区设计。

该PR值得精读,特别是关注量化层中后端检测和缓冲区管理的设计决策。建议关注_process_mxfp8_linear_weight_scale函数中copy_or_rebind_param的使用,以及apply函数中根据后端动态选择缩放因子的模式。

参与讨论