修复 DP Attention 空闲批次 stale metadata 引发的 UAF
这是一个高价值、低风险的关键 bugfix,建议快速合入。根因分析详实,可作为调试复杂并发 bug 的范例。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 DP Attention 空闲批次 stale metadata 引发的 UAF
这是一个高价值、低风险的关键 bugfix,建议快速合入。根因分析详实,可作为调试复杂并发 bug 的范例。
DSA TopK 后端可配置,集成 FlashInfer/PyTorch
值得精读。设计上采用策略模式将后端选择与核心逻辑分离,是良好的模块化范例。讨论中关于 CUDA graph 安全和性能优化的取舍有借鉴意义。建议后续熟悉 DSA 注意力机制的工程师关注此 PR 中的设计权衡。
重构 HiCache 堆栈分发为策略模式
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-25 23:52
将 EPD CI 测试移至 base-c stage
CFG 门控复用残差,减少去噪计算
值得精读。关键设计包括:缓存 delta 按模型身份失效确保多模型场景正确、与 cfg_parallel 互斥通过简单条件判断、状态字典统一管理。实现简洁,注释清晰,适合作为扩散推理加速的范例。
缓存 diffusion 中 FP32LayerNorm 参数转换
值得关注缓存失效设计,测试覆盖全面。如使用扩散模型,建议合并。
原始 PR · 作者 Makcum888e · 合并时间 2026-05-25 18:51
NPU扩散分解功能启用,抽象平台API
值得精读。该 PR 清晰地展示了如何将 CUDA 硬编码代码迁移为平台无关的抽象,为后续支持更多硬件奠定了基础。`current_platform` 和 `torch.get_device_module()` 的使用模式值得作为跨平台开发的参考。
修复 CUDA Graph 填充行 req_pool 索引脏数据问题
推荐合并。这是一个简洁且正确的 bugfix,与已有的 Eagle draft 做法保持一致。值得关注的是,设计上保留 slot 0 作为全零占位的约定,后续开发中应注意维护此约定。
参与讨论