SWA radix cache 新增 KV 事件发布
建议精读。本 PR 是 SWA 缓存事件机制的首个实现,设计上复用已有 `KVCacheEventMixin`,耦合度低。值得关注的设计决策包括:事件记录仅覆盖主要生命周期(store/remove/evict),未覆盖所有细粒度操作(如 match 命中),这可能是与 RadixCache 已有实现对齐的权衡。后续可扩展至更多事件类型。
SGLang is a high-performance serving framework for large language models and multimodal models.
SWA radix cache 新增 KV 事件发布
建议精读。本 PR 是 SWA 缓存事件机制的首个实现,设计上复用已有 `KVCacheEventMixin`,耦合度低。值得关注的设计决策包括:事件记录仅覆盖主要生命周期(store/remove/evict),未覆盖所有细粒度操作(如 match 命中),这可能是与 RadixCache 已有实现对齐的权衡。后续可扩展至更多事件类型。
支持通过环境变量配置启动追踪级别
该 PR 变更简洁,适合快速合入。建议运维人员和开发者关注此环境变量,以便在需要减少追踪开销时使用。测试代码虽然简单,但覆盖了主要场景,可以接受。
修复 AMD CI 中 aiter 重建时 triton 被重装问题
值得合入,但可考虑 gemini-code-assist[bot] 的建议进一步优化构建隔离设置,以提升 CI 效率。
修复 AMD CI 因 cache-dit 版本不匹配导致的测试失败
值得精读,尤其是 PR body 对 root cause 的详细追查链条以及 review 中对 Dockerfile no-op 的指出。展示了正确的依赖修正路径——从源头的 pyproject 出发,而非在安装脚本中打补丁。
更新 MiMo V2.5 cookbook 文档的 Docker 镜像标签到 nightly 版本
该 PR 属于常规文档更新,无需深入精读。建议关注 nightly 镜像的稳定性,必要时后续可更新为正式 release 标签。
文档新增 /rerun-test 命令说明
建议合并,但可考虑根据 review 反馈优化 test-spec 格式的描述,明确区分标准 pytest 分隔符与本命令的实际分隔符。
更新 GB 部署指南中的环境变量
建议精读 review 评论,考虑是否需补充 `NCCL_IB_DISABLE=1` 以保留原有优化。
将 SWA 单元测试从手动目录迁移到 CI 注册目录
可直接合并。这是一个典型的测试基建改进,值得关注的是这些测试覆盖了 SWA 内存池的关键路径(页分配扩展和锁释放),对维护稳定性有积极作用。
参与讨论