Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#24004 fix(moe): relocate orphan tuned configs after #23019

原始 PR · 作者 Wen-xuan-Xu · 合并时间 2026-04-29 17:00

缺陷修复重要性 3.50 洞察度 2.00

迁移 33 个 MoE 调优配置到正确路径，修复运行时未加载的问题

尽快合入，修复内容清晰且低风险。建议在合入后验证 CI 中相关 MoE kernel 针对受影响设备的 benchmark，确认加速比恢复。也可借此机会统一配置放置流程，在 README 添加自动化校验。

bugfixmoeperformance

#23936 mimo v2.5 pro sglang-jax cookbook

原始 PR · 作者 JamesBrianD · 合并时间 2026-04-29 16:58

功能重要性 6.03 洞察度 4.00

为 MiMo-V2.5-Pro 新增 TPU 部署指南与交互面板

值得精读，特别是对部署多硬件方案感兴趣的读者。该 PR 展示了如何通过有限改动扩展部署面板支持新硬件，并处理了不同运行时（CUDA vs JAX）的差异。Review 中的讨论对文档精确性有很好的启发。

featuredocumentationtpu

#21954 [1/4] NVFP4 KV cache: quantization strategy abstraction and kernel

原始 PR · 作者 samuellees · 合并时间 2026-04-29 16:45

功能重要性 9.18 洞察度 6.00

实现 NVFP4 KV cache 量化策略抽象与核心内核

值得精读，该 PR 展示了策略模式在推理引擎量化层的典型应用，接口设计清晰（抽象方法、属性、生命周期方法）。建议重点关注 `dequantize_prev_kv` 的返回值约定（FP8 dtype）以及 `needs_dequant_workspace` 标志位设计，同时留意 CUDA Graph 兼容性注释的演变以理解推理引擎对量化操作的特殊约束。阅读后可跟踪后续 PR 的完整数据流。

quantfeaturekv-cache

#21321 [Kernel] Support FlashInfer TRTLLM-Gen fused MoE for non-gated FP4 & FP8 (Nemotron)

原始 PR · 作者 danielafrimi · 合并时间 2026-04-29 16:28

功能重要性 8.54 洞察度 6.00

FlashInfer TRTLLM-Gen 融合 MoE 支持非门控 FP4/FP8，加速 NemotronH-120B

值得精读。该 PR 清晰展示了如何为 FlashInfer TRTLLM-Gen MoE 后端扩展非门控激活支持，包括权重对齐策略、激活类型传递和自动 backend 选择。设计中的分支权衡和测试取舍也值得关注。建议重点关注 `_align_fp8_moe_weights` 函数的对齐逻辑和 `activation_type` 参数传递链。

quantperformancefeature

#23962 [Spec] Split `accept_length` into `num_accepted_drafts` and `num_accepted_tokens`

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-29 15:02

重构重要性 7.60 洞察度 5.00

拆分 accept_length 为 drafts 和 tokens 两个字段

值得精读，尤其是 `EagleDraftInput` 的字段设计、CUDA 图运行器的双缓冲策略、以及 `eagle_info_v2.py` 中 `sample()` 的变异解耦。这些设计决策可以在类似需要消除隐式语义的场景中复用。

speculative-decodingrefactor

#23864 [Bench] fix MMMU answer-extraction regex dropping multi-line responses

原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-29 14:48

缺陷修复重要性 7.57 洞察度 5.00

修复 MMMU 评估正则截断多行答案

该 PR 值得精读，特别是 `_parse_explicit_multi_choice_answer` 中正则优先级的设计和测试中模块桩的隔离技巧。建议在后续类似评估脚本中参考此模式。

benchmarkbugfixtest

#21125 [HiCache] feat: add draft KV cache backing for L2/L3

原始 PR · 作者 alphabetc1 · 合并时间 2026-04-29 14:47

功能重要性 8.62 洞察度 6.00

在 HiCache 中同步 draft KV 缓存修复 accept length 退化

本 PR 修复了一个关键的 Spec+HiCache 协同 bug，设计合理（piggyback 式同步），且提供了完整的 benchmark 数据验证。此外，`_get_draft_kv_pool` 的抽取体现了良好的重构意识。建议阅读 `_maybe_register_hicache_draft` 和 `start_writing` 中的同步逻辑，理解如何在现有框架下优雅地加入辅助缓存池。

hicachespeculative-decodingbugfix

#23714 [diffusion] CI: update ground truth with official output

原始 PR · 作者 mickqian · 合并时间 2026-04-29 13:51

功能重要性 7.88 洞察度 6.00

引入官方 GT 优先级并修复对齐

建议关注 GT 回退策略设计（优先级 + 存在性检查），可作为跨版本测试基础设施的参考。对于 Qwen-Image 相关开发者，需了解后处理扩展模式，便于其他模型复用。

diffusionrun-cibugfix

第 196 / 357 页 · 共 2850 条

上一页 1 … 194 195 196 197 198 … 357 下一页