启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
SGLang is a high-performance serving framework for large language models and multimodal models.
启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
在cookbook中更新Xeon CPU支持信息
建议阅读该 PR,特别是 `disabledWhen` 和 `condition()` 的设计模式,展示了如何优雅地组织硬件依赖的 UI 选项。同时注意交叉检查多个模型页面的一致性,确保命令参数的准确性。
Nemotron 模型推理性能显著提升
值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-06-06 13:26
修复 DSA 配置覆盖问题并支持 index_skip_topk_offset
本 PR 值得精读,特别是对 DSA 注意力机制、推测解码顶层索引管理、以及大规模模型服务配置兼容性感兴趣的开发者。关键设计决策包括:如何安全地跨 MTP 步骤重用 topk 索引、skip_topk 门控的精确语义、以及 TBO 与索引共享的不兼容性处理。建议在部署启用 index_topk_sharing 的模型时关注此变更。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-06-06 11:18
强制 interleave MoE 布局修复 AMD TP>1 精度崩溃
建议精读。该 PR 展示了如何快速定位硬件后端内核 bug、设计 workaround 并验证精度恢复的完整流程,对于处理类似跨平台兼容性问题有参考价值。同时注意 `.to(torch.int32)` 类的问题在类型敏感性高的系统中很典型。
新增Ideogram4 NVFP4 原生支持
建议阅读此PR以了解如何在SGLang中集成新的扩散模型和量化方案。重点关注bitsandbytes适配器的设计、Comfy布局推断逻辑以及量化线性层的工厂模式。对于review中提出的两个正确性问题,建议在后续迭代中修复。
优化 LingBot 实时 SP 缓存路径与 USP 通信
值得精读。该 PR 展示了如何通过细粒度的缓存复用和通信路径选择来优化实时推理管线的关键瓶颈,设计决策清晰,性能收益量化充分。建议关注 GPT reviewer 提出的进一步优化建议。
按 CI run 隔离 CUDA coredump 目录,修复误报
建议合并。该 PR 针对性的修复了 CI 基础设施中的一个实际问题,变更紧凑、逻辑清晰。值得关注的是 producer 和 uploader 之间通过注释保持目录解析逻辑一致的设计,以及通过环境变量 `RUNNER_TEMP` 利用 CI 自带的 per-job 临时目录机制。
参与讨论