#1764 Add host memory metrics to available_memory function
作者 peterjc123 · 合并时间 2026-04-03 11:52
在内存监控函数中添加主机内存指标,增强系统资源可见性。
该PR值得快速浏览以了解内存监控功能的扩展。关注点包括:新增依赖的管理、字段命名的一致性,以及是否需要在其他工具(如日志或指标收集)中集成这些新指标。对于涉及资源监控的开发者,此变更提供了有用的参考。
标签列表
聚合结果
作者 peterjc123 · 合并时间 2026-04-03 11:52
在内存监控函数中添加主机内存指标,增强系统资源可见性。
该PR值得快速浏览以了解内存监控功能的扩展。关注点包括:新增依赖的管理、字段命名的一致性,以及是否需要在其他工具(如日志或指标收集)中集成这些新指标。对于涉及资源监控的开发者,此变更提供了有用的参考。
作者 zhuzilin · 合并时间 2026-03-29 01:16
新增rollout trace时间线查看器,支持离线分析SGLang生成和奖励模型span事件。
此PR值得精读,特别是对于关注调试、性能优化和SGLang集成的工程师。值得关注的设计决策包括trace span上下文管理、PD时间分解的可视化处理,以及模块化工具设计,这些展示了优雅的代码组织方式。
作者 zhuzilin · 合并时间 2026-03-26 13:23
修复 wandb 初始化时机问题,确保 SGLang 指标正确上传。
对于涉及 wandb 集成和分布式训练的开发者,推荐精读此 PR,以学习如何处理指标上传的时机问题。特别关注 reinit_wandb_primary_with_open_metrics 函数的设计。
作者 zhuzilin · 合并时间 2026-03-21 23:59
总是启用SGLang Prometheus指标并移除数据并行上下文管理。
建议工程师精读sglang_rollout.py的变更,特别是dp_rank_context的移除对负载分配的影响,同时检查metrics启用后系统性能。关注设计决策从动态负载平衡到静态或无平衡的转变,并考虑是否需要补充测试覆盖。
作者 zhuzilin · 合并时间 2026-03-21 23:35
新增 placeholder worker 类型、调整指标路由时机并扩展 GPQA 字母范围。
建议精读 slime/ray/rollout.py 中的 _get_metrics_router_addr 方法和 nodes_per_engine 逻辑变更,以理解 placeholder worker 类型支持的设计和指标路由调整时机。同时,查看 slime/router/router.py 的枚举变更以掌握新的 worker type 定义,这对配置服务器组有参考价值。