Prhub
← 返回仓库详情

标签聚合

THUDM/slime · 标签视图

标签列表

聚合结果

metrics 相关 PR

2026-04-03

#1764 Add host memory metrics to available_memory function

作者 peterjc123 · 合并时间 2026-04-03 11:52

功能 重要性 4.00 洞察度 3.00

在内存监控函数中添加主机内存指标,增强系统资源可见性。

metrics configuration feature

该PR值得快速浏览以了解内存监控功能的扩展。关注点包括:新增依赖的管理、字段命名的一致性,以及是否需要在其他工具(如日志或指标收集)中集成这些新指标。对于涉及资源监控的开发者,此变更提供了有用的参考。

2026-03-29

#1776 Add rollout trace timeline viewer

作者 zhuzilin · 合并时间 2026-03-29 01:16

功能 重要性 6.00 洞察度 6.00

新增rollout trace时间线查看器,支持离线分析SGLang生成和奖励模型span事件。

feature docs metrics

此PR值得精读,特别是对于关注调试、性能优化和SGLang集成的工程师。值得关注的设计决策包括trace span上下文管理、PD时间分解的可视化处理,以及模块化工具设计,这些展示了优雅的代码组织方式。

2026-03-26

#1768 Fix uploading sglang metrics to wandb

作者 zhuzilin · 合并时间 2026-03-26 13:23

缺陷修复 重要性 5.00 洞察度 5.00

修复 wandb 初始化时机问题,确保 SGLang 指标正确上传。

dependency metrics wandb

对于涉及 wandb 集成和分布式训练的开发者,推荐精读此 PR,以学习如何处理指标上传的时机问题。特别关注 reinit_wandb_primary_with_open_metrics 函数的设计。

2026-03-21

#1747 always enable_metrics and remove dp context

作者 zhuzilin · 合并时间 2026-03-21 23:59

重构 重要性 6.00 洞察度 4.00

总是启用SGLang Prometheus指标并移除数据并行上下文管理。

metrics wandb configuration performance

建议工程师精读sglang_rollout.py的变更,特别是dp_rank_context的移除对负载分配的影响,同时检查metrics启用后系统性能。关注设计决策从动态负载平衡到静态或无平衡的转变,并考虑是否需要补充测试覆盖。

#1746 feat: placeholder worker type, metrics router, and GPQA letter range

作者 zhuzilin · 合并时间 2026-03-21 23:35

功能 重要性 6.00 洞察度 5.00

新增 placeholder worker 类型、调整指标路由时机并扩展 GPQA 字母范围。

metrics configuration wandb

建议精读 slime/ray/rollout.py 中的 _get_metrics_router_addr 方法和 nodes_per_engine 逻辑变更,以理解 placeholder worker 类型支持的设计和指标路由调整时机。同时,查看 slime/router/router.py 的枚举变更以掌握新的 worker type 定义,这对配置服务器组有参考价值。