修复PP+HiCache L2崩溃并引入pp_sync同步机制
值得精读,尤其是 `_pp_sync` 在调度器层面实现PP同步的设计模式。关注 `_reap_completed_async_work` 的异步管理技巧,以及 `writing_check` 中基于PP rank的条件处理。对于使用PP+HiCache的团队,建议及时合并。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复PP+HiCache L2崩溃并引入pp_sync同步机制
值得精读,尤其是 `_pp_sync` 在调度器层面实现PP同步的设计模式。关注 `_reap_completed_async_work` 的异步管理技巧,以及 `writing_check` 中基于PP rank的条件处理。对于使用PP+HiCache的团队,建议及时合并。
注册 #27338 到 pr_fix_toggle 逆向开关
该 PR 变更简单明了,建议合并。对于关注 EAGLE speculative decoding 和 CUDA graph 稳定性的开发者,可了解该 revert 机制及其对应 PR #27338 的修复内容。
修复 fa3 EAGLE draft-decode page_table scatter OOB
值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。
原始 PR · 作者 EduardDurech · 合并时间 2026-06-06 15:04
新增 Apertus2509 工具调用与推理块解析器
该 PR 设计思路清晰,遵循了现有解析器框架的扩展模式,是添加新模型格式的良好范例。建议阅读 `apertus2509_detector.py` 和 `reasoning_parser.py` 的源码,了解如何集成 tool call 与 reasoning 解析。对于需要支持相似自定义格式的开发者,该 PR 提供了可复用的模式。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-06 14:30
清理 trtllm_mla backend 中冗余的 init_mha_chunk_metadata 方法
可直接合并,改动清晰、风险低。但建议作者简单说明为何原冗余定义中参数不一致,以便他人理解历史背景。
原始 PR · 作者 hanming-lu · 合并时间 2026-06-06 14:26
调大 KL 散度阈值修复测试 flaky
变更简单直接,无需精读。可作为测试稳定性维护的参考案例。
优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
新增 ngram decode 专用快速更新 kernel
值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。
参与讨论