Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

observability 相关 PR

2026-04-18

#23010 Merge /get_load into /v1/loads

作者 hnyls2002 · 合并时间 2026-04-18 04:36

重构 重要性 8.23 洞察度 5.00

合并 /get_load 到 /v1/loads,统一负载报告路径并弃用旧端点。

refactor model-gateway run-ci observability

该 PR 值得精读,尤其关注数据结构的统一设计和向下兼容处理。值得注意的设计决策包括:在 `GetLoadsReqOutput` 中新增 `num_total_tokens` 字段以区分已使用和总令牌数,以及通过垫片保留旧 API 的平滑迁移路径。

2026-04-17

#19545 feat(observability): add OpenTelemetry tracing for speculative decoding

作者 RichardoMrMu · 合并时间 2026-04-17 14:01

功能 重要性 7.64 洞察度 6.00

为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。

feature observability speculative-decoding run-ci

建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。

#22535 add check for none status code in FinishAbort

作者 pdasgup · 合并时间 2026-04-17 07:21

缺陷修复 重要性 6.25 洞察度 5.00

修复 OpenAI 流端点中优雅中止时 status_code=None 导致的 AttributeError 崩溃。

bugfix run-ci observability consistency

此 PR 值得精读,特别是对于处理流端点和错误处理的开发者。关注如何使用 isinstance 检查来区分优雅中止和系统错误,以及注释中解释的设计决策。这有助于理解 SGLang 中请求生命周期的处理方式。

#22994 use envs in server_args

作者 hnyls2002 · 合并时间 2026-04-17 06:01

重构 重要性 5.64 洞察度 3.00

统一 server_args 中的环境变量读取方式,从工具函数改为 environ 描述符。

refactor run-ci observability

该 PR 是一次典型的代码风格重构,值得快速浏览以了解环境变量管理的最佳实践。重点关注 `server_args.py` 中环境变量读取点的统一模式,以及 `environ.py` 中新增描述符的同步添加。对于涉及类型转换的逻辑(如 NPU fused MOE mode)应仔细验证,但整体风险可控。

文档 重要性 2.35 洞察度 3.00

修正性能剖析文档中停止剖析的 HTTP 端点名称。

documentation run-ci observability

该 PR 变更简单直接,仅修正文档错误,**无需精读**。但值得关注 review 中暴露的文档与实现不一致问题(如 `start_step` 参数),建议后续跟进全面文档审查。

#22982 [Docs] fix profiling endpoint

作者 Zaire404 · 合并时间 2026-04-17 00:51

文档 重要性 2.45 洞察度 1.00

修正性能剖析文档中停止剖析的 HTTP 端点名称。

documentation run-ci observability

该 PR 变更简单直接,无需深入技术分析。对于需要了解性能剖析端点的开发者,可快速浏览以确认正确的 API 使用方式。

2026-04-16

#22959 fix(loads): preserve include filtering after watching mode switch

作者 hnyls2002 · 合并时间 2026-04-16 18:04

缺陷修复 重要性 5.80 洞察度 4.00

修复 /v1/loads 端点切换 watching 模式后 include 过滤失效的问题。

bugfix run-ci observability scheduling

该 PR 是重要的 bugfix,值得精读以理解 watching 模式下的客户端过滤模式。关注 `get_loads` 方法中的映射字典设计和 `watching_call` 中的引用捕获时机,这些是异步通信模式下的典型设计决策。

#22919 fix(loads): switch get_loads_communicator to watching mode

作者 whybeyoung · 合并时间 2026-04-16 17:12

缺陷修复 重要性 5.78 洞察度 5.00

将 /v1/loads 端点的通信器模式从 queueing 改为 watching,防止并发请求超时。

bugfix run-ci scheduling observability

该 PR 值得后端工程师和 SRE 精读,特别是关注高并发场景下的通信模式设计。关键设计决策包括:1) 将 queueing 模式改为 watching 模式以支持结果共享;2) 在 `watching_call` 中通过局部变量捕获和引用检查来优雅处理并发清理。建议结合代码中的注释理解竞态条件防护机制。