为fork PR的/rerun-test命令添加权限检查,允许可信用户检出PR分支进行测试。
该PR涉及CI/CD安全策略调整,建议团队维护者精读,重点关注权限检查逻辑与现有Python处理器的协同。对于一般工程师,了解fork PR测试流程的变化即可。
SGLang is a high-performance serving framework for large language models and multimodal models.
为fork PR的/rerun-test命令添加权限检查,允许可信用户检出PR分支进行测试。
该PR涉及CI/CD安全策略调整,建议团队维护者精读,重点关注权限检查逻辑与现有Python处理器的协同。对于一般工程师,了解fork PR测试流程的变化即可。
为SM120 GPU添加FP8量化模型测试,覆盖逐张量和分块量化格式。
对于技术管理者,此PR值得快速浏览以了解测试覆盖扩展方向;对于工程师,除非负责量化或CI测试,否则无需精读。值得关注的设计决策是:1) 使用统一的基类减少代码重复。2) 通过不同模型路径和参数同时测试两种量化格式。3) 集成到现有CI注册框架。
添加Llama 3.1 8B Instruct FP4模型在SM120 GPU上的CI测试,扩展量化测试覆盖。
对于关心量化测试和CI覆盖的工程师,此PR值得快速浏览以了解测试结构和参数设置。重点关注设计决策如基类使用、硬件要求设置和问题规避方式,建议后续修复TorchDynamo问题以完善测试。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-04-02 08:44
修复PD场景下缓存命中细粒度统计缺失问题,完善设备/主机/存储三级缓存统计。
该PR值得关注其设计权衡:在分布式场景下简化统计传输(放弃storage_backend字符串)以换取实现可行性。建议精读scheduler_output_processor_mixin.py中的逻辑重构,理解如何优雅处理字段存在性条件。对于维护者,可后续考虑将magic number重构为命名常量。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-02 08:42
修复HiCache中host indices未克隆导致的内存泄漏问题。
建议工程师阅读此PR以理解内存泄漏的根本原因和修复方法,特别是在缓存和长期引用场景中。对于维护HiCache或类似系统的开发者,这是一个值得关注的内存管理案例。
统一GSM8K评估路径到Chat API,支持CI回归测试。
建议技术管理者精读此PR,因为它展示了评估基础设施的统一设计决策,如API参数抽象和向后兼容处理。工程师可关注run_eval.py中的CompletionSampler扩展和测试迁移模式,以理解如何平滑过渡遗留系统。
原始 PR · 作者 ishandhanani · 合并时间 2026-04-02 07:51
移除HiRadixCache中基于TTL的硬钉功能及相关代码。
建议关注此revert的原因,理解原有TTL-based硬钉设计的不足,并跟踪后续PR以学习新的实现方案。对于涉及缓存管理或admin接口的开发者,需注意API变更和配置调整。
原始 PR · 作者 alisonshao · 合并时间 2026-04-02 06:44
修复比较器端到端测试:添加polars依赖并修正dp-attention测试逻辑。
该PR值得快速浏览,特别是对于维护测试基础设施的工程师。关注点:1) 依赖管理的完整性;2) 测试中硬件特定假设(如dp-attention模式)的准确性;3) 允许特定张量比较失败的权衡。
参与讨论