2026-06-06
为scripted-runtime添加单元/集成和chunked-prefill测试
本PR值得精读,特别是对sglang测试基础设施感兴趣的团队成员。`test_scripted_runtime_core.py`展示了如何通过生成器脚本驱动调度器步进测试,这种模式可复用于其他模块的集成测试。`test_scripted_core_1gpu.py`中的生命周期暂停测试设计精巧,覆盖了`pause_generation(mode='retract')`后的waiting_queue行为和输出冻结验证。建议所有scripted-runtime的相关修改都运行这些测试以确保不破坏语义。
为 scripted runtime 添加 KV 池和锁引用耗尽原语
测试团队推荐精读这两个 Exhauster 的实现,后续 chunked-prefill 测试将依赖它们。也可作为如何在 scripted 测试中模拟系统状态的参考模式。
新增 scripted-runtime 测试框架核心与调度器 IPC 钩子
值得对 scripted-runtime 感兴趣或有复杂调度测试需求的工程师阅读,尤其 ScriptedSchedulerHook 的 IPC 分发和 ScriptedHttpServer 的生命周期管理设计。
修复 EAGLE 推测解码 topk>1 时 CUDA Graph 内存越界
此 PR 值得合并,修复了明确的严重 bug。对于从事推测解码或 CUDA Graph 相关开发的工程师,建议精读 `common_template` 中的断言实现,它提供了一种低成本、高覆盖的防御性编程模式。
新增 LoadBasedPolicy 路由策略,按最低活跃负载选择 worker
该 PR 值得精读,尤其是 `LoadBasedPolicy` 的实现简洁且符合 `Policy` trait 约定,可作为自定义路由策略的范本。Review 中提出的 herd effect 和测试 flaky 问题是关注的焦点,建议在实际部署前评估并解决这些潜在风险。此外,`SelectionContext` 中的 `routing_key` 字段暗示了未来的扩展方向,值得留意后续工作。