为Ray调度器Actor添加GPU本地NUMA绑定,提升多GPU场景性能。
该PR值得精读,重点关注NUMA绑定在Ray Actor中的实现方式,以及如何复用现有工具函数确保与V1/V2路径的互补性。设计决策展示了在分布式环境中处理进程绑定的优雅方案。
SGLang is a high-performance serving framework for large language models and multimodal models.
为Ray调度器Actor添加GPU本地NUMA绑定,提升多GPU场景性能。
该PR值得精读,重点关注NUMA绑定在Ray Actor中的实现方式,以及如何复用现有工具函数确保与V1/V2路径的互补性。设计决策展示了在分布式环境中处理进程绑定的优雅方案。
修复Ray多副本服务中调度器Actor名称冲突,支持多副本部署。
该PR值得精读,重点关注调度器Actor命名唯一性的设计决策:如何利用Ray Placement Group的自然属性(ID和Bundle索引)作为后缀,既避免冲突又无需引入额外状态管理。同时,注意端口配置的调整可能反映更精细的通信策略。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-17 05:49
更新Step3.5 MTP模型注释,澄清链式多层级联实现细节。
该PR适合快速浏览,重点关注注释如何澄清链式MTP的隐藏状态传递机制。对于不直接参与MTP或推测解码开发的工程师,无需深入研读。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-17 05:19
更新CODEOWNERS文件,将Qiaolin-Yu添加为推测解码模块的代码所有者。
该PR变更简单直接,无需深入阅读。对于关注团队责任分配或基础设施管理的成员,可留意CODEOWNERS文件的更新模式。
原始 PR · 作者 whybeyoung · 合并时间 2026-04-17 04:57
为基准测试工具添加 --fake-prefill 标志,简化 PD 解耦架构下的纯解码性能压测流程。
该 PR 实现简洁、目标明确,是工具链的一个实用改进。对于负责性能测试或 PD 解耦架构开发的工程师,值得快速浏览以了解新的 `--fake-prefill` 标志用法。关注点在于:1) 如何通过命令行标志优雅地注入请求参数;2) 使用共享常量(`FAKE_BOOTSTRAP_HOST`)避免硬编码的最佳实践;3) 文档与代码变更的同步更新模式。
修复代码拼写检查配置,将 'nd' 加入忽略列表。
此 PR 变更简单,无需精读。对于团队,可关注如何维护 `.codespellrc` 以平衡拼写检查严格性和开发便利性。
修正性能剖析文档中停止剖析的 HTTP 端点名称。
该 PR 变更简单直接,仅修正文档错误,**无需精读**。但值得关注 review 中暴露的文档与实现不一致问题(如 `start_step` 参数),建议后续跟进全面文档审查。
修正性能剖析文档中停止剖析的 HTTP 端点名称。
该 PR 变更简单直接,无需深入技术分析。对于需要了解性能剖析端点的开发者,可快速浏览以确认正确的 API 使用方式。
参与讨论