#21626 Clean up _wait_for_scheduler_ready implementation
作者 hnyls2002 · 合并时间 2026-03-29 16:02
优化调度器就绪等待逻辑,使用多路复用避免顺序轮询延迟。
建议工程师精读此 PR,以了解多进程通信中多路复用设计和错误处理抽象的实现细节。设计决策如使用 wait() 替代顺序轮询值得关注,可作为类似场景的参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 hnyls2002 · 合并时间 2026-03-29 16:02
优化调度器就绪等待逻辑,使用多路复用避免顺序轮询延迟。
建议工程师精读此 PR,以了解多进程通信中多路复用设计和错误处理抽象的实现细节。设计决策如使用 wait() 替代顺序轮询值得关注,可作为类似场景的参考。
作者 alphabetc1 · 合并时间 2026-03-29 15:46
修复bench_mix.py中异步任务优雅关闭,避免benchmark输出误导性错误。
对于负责benchmark脚本或异步编程的工程师,建议阅读此PR以学习优雅关闭异步任务的最佳实践。代码改动简单,但展示了重要的asyncio模式,值得关注其错误处理设计。
作者 psaab · 合并时间 2026-03-29 15:36
使用NetworkAddress类正确包装IPv6地址,修复多处host:port字符串拼接问题。
推荐技术管理者关注此PR以理解NetworkAddress类的应用模式,工程师可精读`bench_serving.py`中的URL构建逻辑,学习如何处理条件分支和优雅地封装地址格式化。对于IPv6支持或网络基础设施项目,此PR是基础修复,值得参考。
作者 alphabetc1 · 合并时间 2026-03-29 15:28
修复调度器启动时非当前 rank 死亡导致的挂起问题。
该 PR 值得精读,特别是对于涉及分布式启动或进程管理的工程师。关注的设计决策包括:从阻塞到轮询的转变、检查所有进程而非仅当前进程的健壮性权衡,以及错误消息的优化建议。这些决策体现了在可靠性和性能之间的平衡。
作者 Simon-Li · 合并时间 2026-03-29 15:09
添加子进程活跃度监控以检测调度器崩溃,防止僵尸服务状态。
建议工程师精读python/sglang/srt/utils/watchdog.py中的SubprocessWatchdog类实现,理解其守护线程设计、异常处理和SIGQUIT触发机制;重点关注engine.py的_launch_subprocesses变更,学习如何将监控集成到进程启动流程中,避免跨模块传递;对于信号处理爱好者,tokenizer_manager.py的running_phase_sigquit_handler展示了协调watchdog停止以避免竞态条件的设计决策。
作者 ocss884 · 合并时间 2026-03-29 13:04
放宽测试 test_return_routed_experts 的失败阈值从 0.05 到 0.10。
此 PR 变更简单,不值得精读。工程师可关注测试阈值设定的原则,以确保测试有效性,无需深入分析代码逻辑。
作者 Kangyan-Zhou · 合并时间 2026-03-29 12:54
为GB300硬件添加8个模型nightly基准测试套件,支持NVFP4和FP8变体。
建议技术管理者和工程师精读此PR以学习如何扩展测试套件和集成外部评估工具。重点关注: - `_run_nemo_skills_eval`函数的实现,它展示了依赖隔离、缓存和错误处理的设计模式。 - 变体配置的组织方式,如何通过`ModelLaunchSettings`支持多个运行变体。 - 同时,注意未采纳的review建议,考虑未来改进`profile_dir`的动态派生以提高代码可维护性。
作者 ShangmingCai · 合并时间 2026-03-29 12:50
在 CI 中跳过不稳定的弹性 EP 测试,修复测试 flakiness。
此 PR 变更简单,不值得深入阅读;但团队应关注 flaky 测试的跟踪和修复,建议遵循 review 中的建议创建 issue 来记录问题,并考虑未来修复根本原因。
参与讨论