修复--incremental-streaming-output流式响应文本乱码问题
该PR值得精读,尤其是理解增量流式与累积流式的设计差异。关注_generate_chat_stream中的条件判断逻辑,这是修复的核心。同时,回归测试展示了如何模拟增量流式场景,对测试编写有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复--incremental-streaming-output流式响应文本乱码问题
该PR值得精读,尤其是理解增量流式与累积流式的设计差异。关注_generate_chat_stream中的条件判断逻辑,这是修复的核心。同时,回归测试展示了如何模拟增量流式场景,对测试编写有参考价值。
清理 CI 和 Docker 中冗余的 flashinfer cubin 下载步骤,简化构建。
该 PR 变更简单直接,精读价值不大,但可作为基础设施清理的参考。建议关注 flashinfer 依赖管理的最佳实践。
原始 PR · 作者 Edwardf0t1 · 合并时间 2026-04-12 23:35
启用ModelOpt FP8量化FLUX扩散模型部署,支持自动检测并重用现有FP8内核。
该PR值得精读,特别是ModelOptFp8Config的忽略列表设计和自动反量化机制,这些是处理异构量化模型的关键决策。工程师可关注如何优雅集成外部量化工具的输出,并借鉴其代码组织方式(如helper函数分离逻辑)。
实现LTX-2.3模型的两阶段生成支持,优化管道配置和序列并行逻辑。
建议工程师仔细阅读管道配置(ltx_2.py)和模型层(ltx_2.py)的变更,关注序列并行设计和注意力掩码逻辑;管理者和设计师可审查性能基准(perf_baselines.json)和兼容性文档更新,以评估对项目路线图的影响。
修复 MXFP8 cutlass 后端的权重更新问题
值得快速合并。该 PR 是紧急修复,逻辑简单且正确,能解除 RL 训练的阻塞。建议审核者关注 PR 中提到的未来 `restore_weights_before_loading` API 的进展,以便根本解决此类问题。
为 FlashMLA KV 内核添加 q-head padding,支持纯 TP 配置下的 FP8 注意力计算。
建议精读 `nsa_backend.py` 中的填充实现,关注 `_forward_flashmla_kv` 方法的设计决策;同时注意默认配置变更对部署的影响。
新增--quantization unquant选项,允许用户显式禁用量化自动检测。
这个PR值得关注,因为它展示了如何处理用户显式意图与系统自动检测之间的冲突。设计上通过添加标志记录用户选择,而不是简单依赖None值,这种模式在处理类似配置冲突时值得借鉴。建议阅读python/sglang/srt/server_args.py中的相关修改,特别是_handle_model_specific_adjustments方法中三个自动检测路径的防护条件。
原始 PR · 作者 edwingao28 · 合并时间 2026-04-12 17:08
修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题,通过按模态分离配置避免冲突。
该 PR 值得精读,特别是对于处理多模态配置和 HuggingFace 处理器集成的设计决策。关注点包括:如何使用 `setdefault().update()` 优雅地合并配置,以及如何通过验证和测试确保健壮性。对于维护者,可以学习避免参数冲突的模式。
参与讨论