CI 分区窗口显示为日期范围
小范围基础设施改进,值得合并。建议后续考虑添加日期解析异常保护以增强健壮性。
标签列表
聚合结果
CI 分区窗口显示为日期范围
小范围基础设施改进,值得合并。建议后续考虑添加日期解析异常保护以增强健壮性。
原始 PR · 作者 merrymercy · 合并时间 2026-06-07 01:19
结构化多模态错误响应与客户端断开处理
值得精读,展示了如何通过异常分层与请求状态检查来提升 API 的健壮性和客户端体验。
为繁忙时内存检查添加安静模式,减少日志噪声
该 PR 设计简洁,改动集中,风险低,值得合并。建议在文档中备注级别 1 的缓冲区容量说明,以便用户了解极限场景下的日志覆盖能力。
新增 num_waiting_uncached_tokens 负载指标
值得阅读以了解如何在不重复遍历缓存的情况下利用现有关联信息推导派生指标。其中 `supports_fast_match_prefix` 接口设计为不同缓存后端提供了优雅的扩展点,可作为类似场景的参考模式。
健康检查失败时触发调度器 py-spy 与 CUDA coredump 诊断
建议所有涉及服务可靠性的团队阅读此 PR,尤其是 `dump_requests_before_crash` 和 `_handle_crash_dump_env` 的逻辑。其模块化设计和环境变量门控策略值得借鉴。
重构 trace 模块过滤器,修复默认上下文被错误过滤
推荐阅读 trace.py 中 process_tracing_init 和 TraceReqContext.__init__ 的变更,以及 trace_wrapper.py 的简化。设计决策(模块过滤器不应在 context 初始化中依赖全局 server_args)值得借鉴。合并迅速,逻辑自洽,CV 风险低。
原始 PR · 作者 sufeng-buaa · 合并时间 2026-06-03 16:43
为 Mooncake 后端添加 PD 分解追踪功能
值得精读。该 PR 展示了如何在现有 OpenTelemetry 追踪框架中安全添加模块化追踪,其 `copy_for_thread` 跨线程上下文传播设计可复用,`trace_modules` 过滤模式也值得参考。
原始 PR · 作者 brucechanglongxu · 合并时间 2026-06-02 16:43
暂停时清零吞吐并刷新 KV 事件
值得合并,变更小且聚焦,解决了明确的监控数据问题。对于关注可观测性的团队,可以进一步检查暂停期间的其他指标是否也需要类似处理。