Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

ray 相关 PR

2026-04-17

#22989 [Ray] Bind scheduler actors to GPU-local NUMA node

作者 xyuzh · 合并时间 2026-04-17 05:52

功能 重要性 6.59 洞察度 5.00

为Ray调度器Actor添加GPU本地NUMA绑定,提升多GPU场景性能。

ray performance scheduling run-ci

该PR值得精读,重点关注NUMA绑定在Ray Actor中的实现方式,以及如何复用现有工具函数确保与V1/V2路径的互补性。设计决策展示了在分布式环境中处理进程绑定的优雅方案。

缺陷修复 重要性 6.48 洞察度 5.00

修复Ray多副本服务中调度器Actor名称冲突,支持多副本部署。

ray bugfix scheduling run-ci

该PR值得精读,重点关注调度器Actor命名唯一性的设计决策:如何利用Ray Placement Group的自然属性(ID和Bundle索引)作为后缀,既避免冲突又无需引入额外状态管理。同时,注意端口配置的调整可能反映更精细的通信策略。

2026-04-16
功能 重要性 6.68 洞察度 5.00

RayEngine 在未检测到 placement group 时自动创建,简化部署流程。

feature ray scheduling run-ci

该 PR 值得精读,特别是对于使用 Ray 部署 SGLang 的工程师。关注点包括:自动计算 GPU 需求的逻辑、placement group 策略选择(STRICT_PACK vs SPREAD)、以及 review 中提到的未解决问题(如 `_ACTOR_RUNTIME_ENV` 变量)是否在其他 PR 中处理。

#22905 [misc] fix ray folder lint

作者 Qiaolin-Yu · 合并时间 2026-04-16 06:08

重构 重要性 6.14 洞察度 2.00

修复 Ray 模块代码格式问题,移除多余括号和换行以符合 lint 规范。

refactor ray run-ci

该 PR 不值得精读,除非您关注代码风格规范或 Ray 模块的详细实现。可快速浏览以确认无意外逻辑变更。关注点在于团队如何通过小规模重构保持代码整洁。

功能 重要性 9.00 洞察度 6.00

为 RayEngine 添加数据并行和 DP 注意力支持,扩展多 GPU 推理能力。

feature ray scheduling run-ci

建议精读 `RayDataParallelController` 类的实现,了解如何将 Ray actors 集成到现有数据并行框架中,并覆盖基类方法。同时关注提交历史中的调整点,如返回类型修复和安全绑定,这些是重要的设计决策和陷阱规避。