Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-09
文档 重要性 4.58 洞察度 6.00

新增 speculative decoding 命名规则文件

建议 speculative decoding 相关模块的开发和 reviewer 阅读该规则,并将其作为代码审查的标准之一。PR 本身设计简洁,规则定义清晰(尤其是 accept vs correct 的语义区分),值得借鉴。

#24204 [Model] Laguna-XS.2 Model Support

原始 PR · 作者 Jiminator · 合并时间 2026-05-09 05:43

功能 重要性 9.18 洞察度 6.00

支持 Laguna-XS.2 混合 SWA MoE 模型推理

该 PR 适合需要部署 Laguna-XS.2 模型的用户重点关注。对框架开发者,其 FSM 解析器设计和模型注册机制值得学习。代码组织清晰,测试覆盖全面,可快速集成。

缺陷修复 重要性 4.97 洞察度 3.00

禁止 TBO 与共享专家融合同时启用

值得合并,这是一个低风险、高价值的防御性修复。虽然它没有从根本上解决 TBO 与共享专家融合的兼容性问题,但提供了明确的用户反馈,避免耗时排查。未来可考虑修复底层同步问题以允许两者同时使用。

重构 重要性 4.59 洞察度 3.00

移除 rotate_activation 中 bf16 限制

该 PR 是合理的小型修复,值得合并。它解决了 fp8 检查点兼容性问题,同时保持了 bf16 路径的正确性。作者已在真实模型上验证通过,未引入回归。建议在类似场景(如后续引入 int8 或其他 dtype)时,保持此函数的 dtype 无关性。

#24627 logits: remove blocking H2D copy

原始 PR · 作者 happierpig · 合并时间 2026-05-09 04:22

性能优化 重要性 5.18 洞察度 3.00

移除 logits 处理器中阻塞的 H2D 复制

该 PR 是一个简洁有效的微优化,值得合并。建议将注释措辞调整为更标准的“stall the GPU stream”以提升可读性。对于关注推理延迟的团队,可进一步评估在类似模式中是否还有更多可优化的 H2D 同步点。

#24434 [NemotronH] Fix expert scale weight loading

原始 PR · 作者 chfeng-cs · 合并时间 2026-05-09 03:37

缺陷修复 重要性 6.75 洞察度 3.00

修复 Nemotron-H NVFP4 专家权重加载 KeyError

该 PR 修复了一个明确的启动崩溃 bug,变更小且包含配套测试,建议正常合入。值得关注的是,它展示了 SGLang 模型中 weight loading 不同分支的防御性编程模式,可作为类似修复的参考。

#23678 feat: Add KV events for Mamba radix cache

原始 PR · 作者 zhongdaor-nv · 合并时间 2026-05-09 02:53

功能 重要性 9.18 洞察度 6.00

为 Mamba radix cache 添加 KV 事件发射

值得精读。PR 展示了如何通过 Mixin 模式在不破坏继承层次的情况下为多缓存类添加正交功能。`split_node_hash_value` 设计、Mamba-only 驱逐静默策略值得同类系统参考。

参与讨论