修复 fa3 EAGLE draft-decode page_table scatter OOB
值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 fa3 EAGLE draft-decode page_table scatter OOB
值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。
原始 PR · 作者 EduardDurech · 合并时间 2026-06-06 15:04
新增 Apertus2509 工具调用与推理块解析器
该 PR 设计思路清晰,遵循了现有解析器框架的扩展模式,是添加新模型格式的良好范例。建议阅读 `apertus2509_detector.py` 和 `reasoning_parser.py` 的源码,了解如何集成 tool call 与 reasoning 解析。对于需要支持相似自定义格式的开发者,该 PR 提供了可复用的模式。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-06 14:30
清理 trtllm_mla backend 中冗余的 init_mha_chunk_metadata 方法
可直接合并,改动清晰、风险低。但建议作者简单说明为何原冗余定义中参数不一致,以便他人理解历史背景。
原始 PR · 作者 hanming-lu · 合并时间 2026-06-06 14:26
调大 KL 散度阈值修复测试 flaky
变更简单直接,无需精读。可作为测试稳定性维护的参考案例。
优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
新增 ngram decode 专用快速更新 kernel
值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。
启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
在cookbook中更新Xeon CPU支持信息
建议阅读该 PR,特别是 `disabledWhen` 和 `condition()` 的设计模式,展示了如何优雅地组织硬件依赖的 UI 选项。同时注意交叉检查多个模型页面的一致性,确保命令参数的准确性。
参与讨论