#23313 ci: reduce scheduled PR test from 4x to 3x daily
原始 PR · 作者 alisonshao · 合并时间 2026-04-21 11:53
将PR测试的定时触发频率从每日4次减少到3次。
这是一个简单的CI配置调整,无需深入阅读。对于团队管理者,可以关注此变更是否达到预期资源节省效果;对于工程师,只需知道PR测试频率已调整即可。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 alisonshao · 合并时间 2026-04-21 11:53
将PR测试的定时触发频率从每日4次减少到3次。
这是一个简单的CI配置调整,无需深入阅读。对于团队管理者,可以关注此变更是否达到预期资源节省效果;对于工程师,只需知道PR测试频率已调整即可。
新增 Ascend NPU 快速入门文档,提供容器设置和服务器启动指南。
对于技术管理者,此 PR 值得快速审查以确保文档准确性和完整性,特别是硬件配置部分。对于工程师,可以浏览文档了解 NPU 使用流程,但无需深入代码;关注 review 中的设计权衡(如设备映射优化)可作为文档最佳实践的参考。
修复 PD 解聚中 IntraNode NVLink 使用时的元数据缓冲区设备分配和辅助数据传输错误。
该 PR 值得快速浏览以理解 IntraNode NVLink 场景下的异步传输问题及其临时修复策略。关注 `MetadataBuffers` 的设备分配决策和 `send_aux` 的条件扩展,这些设计决策体现了在性能与稳定性间的权衡。建议后续工程师关注 ShangmingCai 提到的同步机制改进。
修复混合SWA分块预填充的内存溢出问题,确保预留页面空间并正确处理资源不足时的延迟处理。
该PR值得精读,特别是`add_chunked_req`方法中的设计决策:如何平衡资源分配与OOM风险,以及延迟处理与回退策略的选择。关注预留页面空间的实现细节和测试用例的设计,这些展示了在资源受限场景下的稳健性处理模式。
重构混合缓存池组装逻辑,减少代码重复并提升可重用性。
建议工程团队精读此 PR,重点关注共享构建块的设计(如 `_make_layer_mapper` 和 `build_pool_entry`),这些决策体现了模块化思想,但需注意层映射逻辑的潜在缺陷。对于使用混合缓存的开发者,新适配器接口(如 `attach_hybrid_nsa_pool_to_hiradix_cache`)提供了更清晰的集成点,值得参考。
原始 PR · 作者 ishandhanani · 合并时间 2026-04-21 10:07
修复 HiCache L2 主机缓存插入时缺失 KV 事件发射的问题。
建议技术管理者和工程师精读此 PR,关注设计决策如存储介质枚举化和事件发射时机的优化。这些模式展示了如何扩展事件系统以支持多级缓存,对于类似事件驱动的架构有借鉴价值。
原始 PR · 作者 ChangLiu0709 · 合并时间 2026-04-21 09:17
修复Qwen3.5 MoE模型在AMD平台使用推测解码时与基数树缓存的冲突,提升开箱即用性。
该PR值得精读,因为它展示了如何在多平台环境中优雅处理硬件限制导致的配置冲突。关注点在于`is_hip()`的使用和错误处理的设备感知设计,这对跨平台开发有借鉴意义。
将页面对齐逻辑重构为 RadixKey 类方法,统一缓存 API 并提升封装性。
值得精读,特别是关注 `RadixKey.page_aligned` 方法的设计和其在各缓存类中的集成方式,这体现了面向对象封装的优势。同时,提交历史中的返工展示了 API 设计迭代的过程,对理解技术决策有价值。
参与讨论