Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 13:37 同步状态：空闲下次计划：2026-06-07 14:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-13

#22549 Fix broken streaming response with --incremental-streaming-output

原始 PR · 作者 kpham-sgl · 合并时间 2026-04-13 06:05

缺陷修复重要性 6.00 洞察度 5.00

修复--incremental-streaming-output流式响应文本乱码问题

该PR值得精读，尤其是理解增量流式与累积流式的设计差异。关注_generate_chat_stream中的条件判断逻辑，这是修复的核心。同时，回归测试展示了如何模拟增量流式场景，对测试编写有参考价值。

bugfixrun-ciobservability

#22491 [CI/Docker] Clean up redundant flashinfer cubin downloads

原始 PR · 作者 mmangkad · 合并时间 2026-04-13 03:30

基础设施重要性 2.00 洞察度 2.00

清理 CI 和 Docker 中冗余的 flashinfer cubin 下载步骤，简化构建。

该 PR 变更简单直接，精读价值不大，但可作为基础设施清理的参考。建议关注 flashinfer 依赖管理的最佳实践。

run-cidependencies

2026-04-12

#20082 Enable modelopt quantized FLUX deployment

原始 PR · 作者 Edwardf0t1 · 合并时间 2026-04-12 23:35

功能重要性 6.00 洞察度 5.00

启用ModelOpt FP8量化FLUX扩散模型部署，支持自动检测并重用现有FP8内核。

该PR值得精读，特别是ModelOptFp8Config的忽略列表设计和自动反量化机制，这些是处理异构量化模型的关键决策。工程师可关注如何优雅集成外部量化工具的输出，并借鉴其代码组织方式（如helper函数分离逻辑）。

diffusionquantfeature

#22182 [diffusion] model: support LTX2.3 two stage

原始 PR · 作者 mickqian · 合并时间 2026-04-12 22:15

功能重要性 7.00 洞察度 6.00

实现LTX-2.3模型的两阶段生成支持，优化管道配置和序列并行逻辑。

建议工程师仔细阅读管道配置（ltx_2.py）和模型层（ltx_2.py）的变更，关注序列并行设计和注意力掩码逻辑；管理者和设计师可审查性能基准（perf_baselines.json）和兼容性文档更新，以评估对项目路线图的影响。

diffusionrun-cidocumentation

#22484 [RL] Fix weight update for mxfp8 flashinfer_cutlass gemm backend

原始 PR · 作者 zianglih · 合并时间 2026-04-12 21:02

缺陷修复重要性 5.62 洞察度 3.00

修复 MXFP8 cutlass 后端的权重更新问题

值得快速合并。该 PR 是紧急修复，逻辑简单且正确，能解除 RL 训练的阻塞。建议审核者关注 PR 中提到的未来 `restore_weights_before_loading` API 的进展，以便根本解决此类问题。

bugfixquantrun-ci

#22372 [DSA] Hopper FP8 FlashMLA KV padding

原始 PR · 作者 mmangkad · 合并时间 2026-04-12 17:19

功能重要性 5.00 洞察度 4.00

为 FlashMLA KV 内核添加 q-head padding，支持纯 TP 配置下的 FP8 注意力计算。

建议精读 `nsa_backend.py` 中的填充实现，关注 `_forward_flashmla_kv` 方法的设计决策；同时注意默认配置变更对部署的影响。

featuredeepseeksgl-kernel

#21863 [server] Add --quantization unquant to explicitly opt out of quantization

原始 PR · 作者 klshuster · 合并时间 2026-04-12 17:17

功能重要性 5.00 洞察度 4.00

新增--quantization unquant选项，允许用户显式禁用量化自动检测。

这个PR值得关注，因为它展示了如何处理用户显式意图与系统自动检测之间的冲突。设计上通过添加标志记录用户选择，而不是简单依赖None值，这种模式在处理类似配置冲突时值得借鉴。建议阅读python/sglang/srt/server_args.py中的相关修改，特别是_handle_model_specific_adjustments方法中三个自动检测路径的防护条件。

featurerun-ciquant

#18467 VLM: support passing --mm-process-config for all models

原始 PR · 作者 edwingao28 · 合并时间 2026-04-12 17:08

缺陷修复重要性 6.00 洞察度 6.00

修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题，通过按模态分离配置避免冲突。

该 PR 值得精读，特别是对于处理多模态配置和 HuggingFace 处理器集成的设计决策。关注点包括：如何使用 `setdefault().update()` 优雅地合并配置，以及如何通过验证和测试确保健壮性。对于维护者，可以学习避免参数冲突的模式。

bugfixmultimodaldocumentation

第 263 / 357 页 · 共 2853 条

上一页 1 … 261 262 263 264 265 … 357 下一页