Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

scheduling 相关 PR

2026-04-17

#23029 [test] Add GSM8K accuracy test for PP with mixed chunk prefill

作者 cyyc0310 · 合并时间 2026-04-17 17:09

测试 重要性 6.60 洞察度 4.00

新增流水线并行与混合分块预填充的GSM8K精度测试,验证功能兼容性。

test run-ci scheduling

该PR值得快速浏览,重点关注`TestPPMixedChunk`测试类的设计,它展示了如何为特定配置组合(PP+混合分块)添加端到端精度测试。对于涉及流水线并行或预填充优化的开发者,这个测试可作为参考模板。

缺陷修复 重要性 5.28 洞察度 5.00

修复流水线并行模式下调度器因条件判断错误导致的预填充请求挂起问题。

bugfix scheduling run-ci

该 PR 值得精读,尤其是 PR body 中详细的根因分析和计算示例,展示了如何定位和修复调度器中的条件竞争问题。关注点在于理解流水线并行下分块请求的调度策略,以及为何必须允许其在槽位不足时继续执行。

缺陷修复 重要性 5.22 洞察度 4.00

修复解聚模式下首个请求携带 disagg_prefill_dp_rank 时因缓存未初始化而失败的问题。

bugfix run-ci scheduling

该 PR 值得精读,特别是 `_resolve_prefill_dp_rank` 方法的调整,展示了缓存初始化与客户端参数处理的正确顺序,对于理解解聚模式下的请求处理流程有参考价值。

性能优化 重要性 6.68 洞察度 5.00

优化推测解码V2模式下KV缓存页需求估算,提升内存分配准确性。

performance speculative-decoding run-ci scheduling

该PR值得精读,特别是`_new_tokens_required_next_decode_spec_v2`方法的设计,它展示了如何将底层内存分配逻辑(来自`eagle_info_v2`)集成到高层调度器中,体现了性能优化中精确估算的重要性。建议关注其与`get_alloc_len_per_decode`的协作方式,以及页对齐计算(`ceil_align`)的运用。

#22989 [Ray] Bind scheduler actors to GPU-local NUMA node

作者 xyuzh · 合并时间 2026-04-17 05:52

功能 重要性 6.59 洞察度 5.00

为Ray调度器Actor添加GPU本地NUMA绑定,提升多GPU场景性能。

ray performance scheduling run-ci

该PR值得精读,重点关注NUMA绑定在Ray Actor中的实现方式,以及如何复用现有工具函数确保与V1/V2路径的互补性。设计决策展示了在分布式环境中处理进程绑定的优雅方案。

缺陷修复 重要性 6.48 洞察度 5.00

修复Ray多副本服务中调度器Actor名称冲突,支持多副本部署。

ray bugfix scheduling run-ci

该PR值得精读,重点关注调度器Actor命名唯一性的设计决策:如何利用Ray Placement Group的自然属性(ID和Bundle索引)作为后缀,既避免冲突又无需引入额外状态管理。同时,注意端口配置的调整可能反映更精细的通信策略。

#22973 [PD]feat(bench): add --fake-prefill flag for decode-only stress testing

作者 whybeyoung · 合并时间 2026-04-17 04:57

功能 重要性 5.67 洞察度 4.00

为PD解聚模式新增--fake-prefill标志,简化纯解码性能压测流程。

benchmark run-ci feature scheduling

该PR值得需要了解PD解聚压测工具集成的开发者精读。重点关注其如何通过命令行标志封装内部细节,以及遵循“使用常量而非硬编码”的最佳实践。对于不涉及该压测场景的工程师,可快速浏览以了解项目工具链的演进。

2026-04-16

#21701 [diffusion] disaggregated diffusion

作者 yhyang201 · 合并时间 2026-04-16 23:51

功能 重要性 9.36 洞察度 7.00

新增扩散模型解聚架构,将编码器、去噪器、解码器角色独立运行于不同 GPU 实例。

diffusion multimodal feature scheduling run-ci

建议仔细阅读 `scheduler_mixin.py` 和 `orchestrator.py` 以理解核心调度和路由逻辑;关注 review 中讨论的设计决策,如数据类初始化和传输协议设计,以避免潜在缺陷;注意风险点,如实例索引一致性和性能优化,建议在部署前进行全面测试。