新增 speculative decoding 命名规则文件
建议 speculative decoding 相关模块的开发和 reviewer 阅读该规则,并将其作为代码审查的标准之一。PR 本身设计简洁,规则定义清晰(尤其是 accept vs correct 的语义区分),值得借鉴。
SGLang is a high-performance serving framework for large language models and multimodal models.
新增 speculative decoding 命名规则文件
建议 speculative decoding 相关模块的开发和 reviewer 阅读该规则,并将其作为代码审查的标准之一。PR 本身设计简洁,规则定义清晰(尤其是 accept vs correct 的语义区分),值得借鉴。
支持 Laguna-XS.2 混合 SWA MoE 模型推理
该 PR 适合需要部署 Laguna-XS.2 模型的用户重点关注。对框架开发者,其 FSM 解析器设计和模型注册机制值得学习。代码组织清晰,测试覆盖全面,可快速集成。
禁止 TBO 与共享专家融合同时启用
值得合并,这是一个低风险、高价值的防御性修复。虽然它没有从根本上解决 TBO 与共享专家融合的兼容性问题,但提供了明确的用户反馈,避免耗时排查。未来可考虑修复底层同步问题以允许两者同时使用。
移除 rotate_activation 中 bf16 限制
该 PR 是合理的小型修复,值得合并。它解决了 fp8 检查点兼容性问题,同时保持了 bf16 路径的正确性。作者已在真实模型上验证通过,未引入回归。建议在类似场景(如后续引入 int8 或其他 dtype)时,保持此函数的 dtype 无关性。
原始 PR · 作者 happierpig · 合并时间 2026-05-09 04:22
移除 logits 处理器中阻塞的 H2D 复制
该 PR 是一个简洁有效的微优化,值得合并。建议将注释措辞调整为更标准的“stall the GPU stream”以提升可读性。对于关注推理延迟的团队,可进一步评估在类似模式中是否还有更多可优化的 H2D 同步点。
修复 Nemotron-H NVFP4 专家权重加载 KeyError
该 PR 修复了一个明确的启动崩溃 bug,变更小且包含配套测试,建议正常合入。值得关注的是,它展示了 SGLang 模型中 weight loading 不同分支的防御性编程模式,可作为类似修复的参考。
原始 PR · 作者 zhongdaor-nv · 合并时间 2026-05-09 02:53
为 Mamba radix cache 添加 KV 事件发射
值得精读。PR 展示了如何通过 Mixin 模式在不破坏继承层次的情况下为多缓存类添加正交功能。`split_node_hash_value` 设计、Mamba-only 驱逐静默策略值得同类系统参考。
修复 NVFP4 测试在非 Blackwell GPU 上误跑的问题
本 PR 解决了测试隔离问题,值得合入。建议后续在 `is_blackwell` 函数中添加更多架构版本时同步更新此测试。
参与讨论