#43346 [Metrics] Exclude KV transfer tokens from iteration_tokens_total
原始 PR · 作者 tlrmchlsmth · 合并时间 2026-05-30 03:56
修复 iteration_tokens_total 包含 KV 传输 token 的问题
值得合入,改动精简且正确。建议在 release notes 中明确说明此变更,提醒已经在监控中使用该直方图的用户注意数值变化。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 tlrmchlsmth · 合并时间 2026-05-30 03:56
修复 iteration_tokens_total 包含 KV 传输 token 的问题
值得合入,改动精简且正确。建议在 release notes 中明确说明此变更,提醒已经在监控中使用该直方图的用户注意数值变化。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 03:28
为 DP supervisor 添加 SSL 支持
值得精读。该 PR 展示了在分布式推理框架中为管理服务添加 SSL 支持的正确姿势:区分外部用户流量和内部节点流量,合理跳过不必要的验证,同时保持代码简洁。对于需要 HTTPS 的生产部署场景是必要变更。
将 @khluu 添加至 CODEOWNERS
该 PR 为内部流程变更,对普通开发者无直接影响。若关注 CI 或构建配置的审核流程,可简要了解所有者变更情况。
删除冗余测试并清理 CI ignore 配置
建议合并,属于常规清理。可关注是否还有其他类似已跳过的测试需要一并清理,以保持代码库整洁。
CI 模型执行器测试超时失败快速反馈
应立即合入,作为 CI 防御性措施。建议后续将类似超时机制推广到其他 GPU/CUDA 密集的 CI 步骤。此 PR 逻辑清晰,改动安全。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-30 02:55
修复 MoE permute 中 torch 设备不一致崩溃
建议作为常规 bugfix 合并,改动简洁清晰。值得关注的是这种“设备字符串规范化”的模式——在 `__post_init__` 中从实际 tensor 推导设备,可作为后续类似初始化陷阱的参考修复方式。
原始 PR · 作者 czhu-cohere · 合并时间 2026-05-30 02:51
修复 Ray 多节点 placement group 分配崩溃
值得合并。该修复针对的是多节点 Ray 集群上的数据并行场景,代码简洁,修复明确,无副作用。
修复 DeepSeek V4 KV cache reshape 越界崩溃
值得所有使用 DeepSeek V4 或类似压缩 KV cache 模型的用户及时合并。代码改动很小,但根本原因分析深入,体现了对 KV cache 布局的理解,适合精读以学习类似问题的排查方法。
参与讨论