Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

observability 相关 PR

2026-06-07
2026-06-04
重构 重要性 6.34 洞察度 3.00

为繁忙时内存检查添加安静模式,减少日志噪声

该 PR 设计简洁,改动集中,风险低,值得合并。建议在文档中备注级别 1 的缓冲区容量说明,以便用户了解极限场景下的日志覆盖能力。

#27174 Add num_waiting_uncached_tokens load metric

原始 PR · 作者 cctry · 合并时间 2026-06-04 09:29

功能 重要性 7.00 洞察度 5.00

新增 num_waiting_uncached_tokens 负载指标

值得阅读以了解如何在不重复遍历缓存的情况下利用现有关联信息推导派生指标。其中 `supports_fast_match_prefix` 接口设计为不同缓存后端提供了优雅的扩展点,可作为类似场景的参考模式。

#26757 Trigger scheduler diagnostics on health failure

原始 PR · 作者 yinghai · 合并时间 2026-06-04 08:19

功能 重要性 8.65 洞察度 5.00

健康检查失败时触发调度器 py-spy 与 CUDA coredump 诊断

建议所有涉及服务可靠性的团队阅读此 PR,尤其是 `dump_requests_before_crash` 和 `_handle_crash_dump_env` 的逻辑。其模块化设计和环境变量门控策略值得借鉴。

缺陷修复 重要性 7.51 洞察度 6.00

重构 trace 模块过滤器,修复默认上下文被错误过滤

推荐阅读 trace.py 中 process_tracing_init 和 TraceReqContext.__init__ 的变更,以及 trace_wrapper.py 的简化。设计决策(模块过滤器不应在 context 初始化中依赖全局 server_args)值得借鉴。合并迅速,逻辑自洽,CV 风险低。

2026-06-03
功能 重要性 8.79 洞察度 6.00

为 Mooncake 后端添加 PD 分解追踪功能

值得精读。该 PR 展示了如何在现有 OpenTelemetry 追踪框架中安全添加模块化追踪,其 `copy_for_thread` 跨线程上下文传播设计可复用,`trace_modules` 过滤模式也值得参考。

2026-06-02
缺陷修复 重要性 5.60 洞察度 4.00

暂停时清零吞吐并刷新 KV 事件

值得合并,变更小且聚焦,解决了明确的监控数据问题。对于关注可观测性的团队,可以进一步检查暂停期间的其他指标是否也需要类似处理。