Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-29
缺陷修复 重要性 3.50 洞察度 2.00

迁移 33 个 MoE 调优配置到正确路径,修复运行时未加载的问题

尽快合入,修复内容清晰且低风险。建议在合入后验证 CI 中相关 MoE kernel 针对受影响设备的 benchmark,确认加速比恢复。也可借此机会统一配置放置流程,在 README 添加自动化校验。

#23936 mimo v2.5 pro sglang-jax cookbook

原始 PR · 作者 JamesBrianD · 合并时间 2026-04-29 16:58

功能 重要性 6.03 洞察度 4.00

为 MiMo-V2.5-Pro 新增 TPU 部署指南与交互面板

值得精读,特别是对部署多硬件方案感兴趣的读者。该 PR 展示了如何通过有限改动扩展部署面板支持新硬件,并处理了不同运行时(CUDA vs JAX)的差异。Review 中的讨论对文档精确性有很好的启发。

功能 重要性 9.18 洞察度 6.00

实现 NVFP4 KV cache 量化策略抽象与核心内核

值得精读,该 PR 展示了策略模式在推理引擎量化层的典型应用,接口设计清晰(抽象方法、属性、生命周期方法)。建议重点关注 `dequantize_prev_kv` 的返回值约定(FP8 dtype)以及 `needs_dequant_workspace` 标志位设计,同时留意 CUDA Graph 兼容性注释的演变以理解推理引擎对量化操作的特殊约束。阅读后可跟踪后续 PR 的完整数据流。

功能 重要性 8.54 洞察度 6.00

FlashInfer TRTLLM-Gen 融合 MoE 支持非门控 FP4/FP8,加速 NemotronH-120B

值得精读。该 PR 清晰展示了如何为 FlashInfer TRTLLM-Gen MoE 后端扩展非门控激活支持,包括权重对齐策略、激活类型传递和自动 backend 选择。设计中的分支权衡和测试取舍也值得关注。建议重点关注 `_align_fp8_moe_weights` 函数的对齐逻辑和 `activation_type` 参数传递链。

重构 重要性 7.60 洞察度 5.00

拆分 accept_length 为 drafts 和 tokens 两个字段

值得精读,尤其是 `EagleDraftInput` 的字段设计、CUDA 图运行器的双缓冲策略、以及 `eagle_info_v2.py` 中 `sample()` 的变异解耦。这些设计决策可以在类似需要消除隐式语义的场景中复用。

功能 重要性 8.62 洞察度 6.00

在 HiCache 中同步 draft KV 缓存修复 accept length 退化

本 PR 修复了一个关键的 Spec+HiCache 协同 bug,设计合理(piggyback 式同步),且提供了完整的 benchmark 数据验证。此外,`_get_draft_kv_pool` 的抽取体现了良好的重构意识。建议阅读 `_maybe_register_hicache_draft` 和 `start_writing` 中的同步逻辑,理解如何在现有框架下优雅地加入辅助缓存池。

功能 重要性 7.88 洞察度 6.00

引入官方 GT 优先级并修复对齐

建议关注 GT 回退策略设计(优先级 + 存在性检查),可作为跨版本测试基础设施的参考。对于 Qwen-Image 相关开发者,需了解后处理扩展模式,便于其他模型复用。

参与讨论