#23010 Merge /get_load into /v1/loads
作者 hnyls2002 · 合并时间 2026-04-18 04:36
合并 /get_load 到 /v1/loads,统一负载报告路径并弃用旧端点。
该 PR 值得精读,尤其关注数据结构的统一设计和向下兼容处理。值得注意的设计决策包括:在 `GetLoadsReqOutput` 中新增 `num_total_tokens` 字段以区分已使用和总令牌数,以及通过垫片保留旧 API 的平滑迁移路径。
标签列表
聚合结果
作者 hnyls2002 · 合并时间 2026-04-18 04:36
合并 /get_load 到 /v1/loads,统一负载报告路径并弃用旧端点。
该 PR 值得精读,尤其关注数据结构的统一设计和向下兼容处理。值得注意的设计决策包括:在 `GetLoadsReqOutput` 中新增 `num_total_tokens` 字段以区分已使用和总令牌数,以及通过垫片保留旧 API 的平滑迁移路径。
作者 RichardoMrMu · 合并时间 2026-04-17 14:01
为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。
建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。
作者 pdasgup · 合并时间 2026-04-17 07:21
修复 OpenAI 流端点中优雅中止时 status_code=None 导致的 AttributeError 崩溃。
此 PR 值得精读,特别是对于处理流端点和错误处理的开发者。关注如何使用 isinstance 检查来区分优雅中止和系统错误,以及注释中解释的设计决策。这有助于理解 SGLang 中请求生命周期的处理方式。
作者 hnyls2002 · 合并时间 2026-04-17 06:01
统一 server_args 中的环境变量读取方式,从工具函数改为 environ 描述符。
该 PR 是一次典型的代码风格重构,值得快速浏览以了解环境变量管理的最佳实践。重点关注 `server_args.py` 中环境变量读取点的统一模式,以及 `environ.py` 中新增描述符的同步添加。对于涉及类型转换的逻辑(如 NPU fused MOE mode)应仔细验证,但整体风险可控。
作者 cs-cat · 合并时间 2026-04-17 00:54
修正性能剖析文档中停止剖析的 HTTP 端点名称。
该 PR 变更简单直接,仅修正文档错误,**无需精读**。但值得关注 review 中暴露的文档与实现不一致问题(如 `start_step` 参数),建议后续跟进全面文档审查。
作者 Zaire404 · 合并时间 2026-04-17 00:51
修正性能剖析文档中停止剖析的 HTTP 端点名称。
该 PR 变更简单直接,无需深入技术分析。对于需要了解性能剖析端点的开发者,可快速浏览以确认正确的 API 使用方式。
作者 hnyls2002 · 合并时间 2026-04-16 18:04
修复 /v1/loads 端点切换 watching 模式后 include 过滤失效的问题。
该 PR 是重要的 bugfix,值得精读以理解 watching 模式下的客户端过滤模式。关注 `get_loads` 方法中的映射字典设计和 `watching_call` 中的引用捕获时机,这些是异步通信模式下的典型设计决策。
作者 whybeyoung · 合并时间 2026-04-16 17:12
将 /v1/loads 端点的通信器模式从 queueing 改为 watching,防止并发请求超时。
该 PR 值得后端工程师和 SRE 精读,特别是关注高并发场景下的通信模式设计。关键设计决策包括:1) 将 queueing 模式改为 watching 模式以支持结果共享;2) 在 `watching_call` 中通过局部变量捕获和引用检查来优雅处理并发清理。建议结合代码中的注释理解竞态条件防护机制。