Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

scheduling 相关 PR

2026-06-06
测试 重要性 8.15 洞察度 5.00

为scripted-runtime添加单元/集成和chunked-prefill测试

本PR值得精读,特别是对sglang测试基础设施感兴趣的团队成员。`test_scripted_runtime_core.py`展示了如何通过生成器脚本驱动调度器步进测试,这种模式可复用于其他模块的集成测试。`test_scripted_core_1gpu.py`中的生命周期暂停测试设计精巧,覆盖了`pause_generation(mode='retract')`后的waiting_queue行为和输出冻结验证。建议所有scripted-runtime的相关修改都运行这些测试以确保不破坏语义。

测试 重要性 6.98 洞察度 3.00

为 scripted runtime 添加 KV 池和锁引用耗尽原语

测试团队推荐精读这两个 Exhauster 的实现,后续 chunked-prefill 测试将依赖它们。也可作为如何在 scripted 测试中模拟系统状态的参考模式。

测试 重要性 8.47 洞察度 6.00

新增 scripted-runtime 测试框架核心与调度器 IPC 钩子

值得对 scripted-runtime 感兴趣或有复杂调度测试需求的工程师阅读,尤其 ScriptedSchedulerHook 的 IPC 分发和 ScriptedHttpServer 的生命周期管理设计。

缺陷修复 重要性 6.18 洞察度 6.00

修复 EAGLE 推测解码 topk>1 时 CUDA Graph 内存越界

此 PR 值得合并,修复了明确的严重 bug。对于从事推测解码或 CUDA Graph 相关开发的工程师,建议精读 `common_template` 中的断言实现,它提供了一种低成本、高覆盖的防御性编程模式。

#26480 feat(agentic router, 1/N): Add LoadBasedPolicy

原始 PR · 作者 hzh0425 · 合并时间 2026-06-06 00:13

功能 重要性 8.71 洞察度 4.00

新增 LoadBasedPolicy 路由策略,按最低活跃负载选择 worker

该 PR 值得精读,尤其是 `LoadBasedPolicy` 的实现简洁且符合 `Policy` trait 约定,可作为自定义路由策略的范本。Review 中提出的 herd effect 和测试 flaky 问题是关注的焦点,建议在实际部署前评估并解决这些潜在风险。此外,`SelectionContext` 中的 `routing_key` 字段暗示了未来的扩展方向,值得留意后续工作。

2026-06-05
缺陷修复 重要性 5.52 洞察度 5.00

修复 HiMamba HiCache 预取在 L3 传输后挂起

精读价值中等;对于使用 HiCache 和 Mamba 模型的开发者值得关注。建议阅读 `hi_mamba_radix_cache.py` 的 `can_terminate_prefetch` 方法,理解预取生命周期管理。

#27330 [UnifiedTree]: Fix CP Reduce

原始 PR · 作者 hzh0425 · 合并时间 2026-06-05 14:03

重构 重要性 6.13 洞察度 4.00

修复 CP 模式下 all_reduce/barrier 的通信组

此 PR 是必要的修复,设计清晰,推荐合入。可作为统一通信组调用的好例子。

缺陷修复 重要性 6.80 洞察度 6.00

启用 spec topk>1 的 busy 内存检查

建议精读,涉及 speculative decoding 内存管理的关键不变检查,以及测试基础设施中 MRO 合并环境覆盖的可复用模式。修复的身份比较问题是一个典型的 dataclass 陷阱,值得注意。