#42594 fix: add API key authorization to /v2 endpoints
原始 PR · 作者 dusthunter · 合并时间 2026-05-16 09:29
修复 /v2 端点 API key 认证绕过漏洞
值得立即合并。作为一个安全修复,变更简洁且测试完备。设计上采用元组常量管理受保护前缀的做法值得推广。建议后续跟进路径规范化以消除评论中提出的边缘情况。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 dusthunter · 合并时间 2026-05-16 09:29
修复 /v2 端点 API key 认证绕过漏洞
值得立即合并。作为一个安全修复,变更简洁且测试完备。设计上采用元组常量管理受保护前缀的做法值得推广。建议后续跟进路径规范化以消除评论中提出的边缘情况。
原始 PR · 作者 viktorpusTT · 合并时间 2026-05-16 08:44
结构化基准测试新增随机前缀选项
此 PR 值得仔细阅读,尤其关注 review 中未解决的 prompt_len 一致性问题。建议在后续 PR 中修复 decode 参数和长度计算,确保基准测试数据准确。
修复 kv-cache-dtype 用户显式设置被覆盖的 bug
值得合入,改动简洁且解决了实际用户问题。建议阅读 reviewer MatthewBonanni 关于 "auto" 语义演变的评论,关注后续 #38124 对 dtype 语义的进一步区分。
添加 --linear-backend 参数用于线性 kernel 后端选择
建议阅读该 PR,尤其是 kernel 选择架构的统一化设计(类似 `--moe-backend` 的模式)。对于需要多后端切换的用户,这是必要的配置入口。团队应关注后续动态扩展的支持计划。
原始 PR · 作者 JasonKeyiL · 合并时间 2026-05-16 07:20
修复 V2 模型运行器中 VLM 包装器的 EPLB 展开
建议精读此 PR,尤其是 `_unwrap_moe` 的设计模式——它展示了如何在不侵入 VLM 包装器的情况下处理协议缺失问题。考虑在后续 PR 中处理 `maybe_register_speculator` 的类似展开。
修复逐层重载中别名缓冲区损坏导致 NaN 的问题
值得精读。该 PR 展示了如何在 PyTorch 中安全地检测和跳过共享存储的缓冲区,设计模式(预计算指针集合、异常安全处理)可复用于其他需要操作 tensor 别名的场景。review 过程中对性能优化和逻辑简化的讨论也体现了良好的工程实践。
原始 PR · 作者 rbrugaro-amd · 合并时间 2026-05-16 04:50
适配 AITER API 重命名,修复 MLA RMSNorm 融合崩溃
推荐阅读,因为展示了如何优雅处理上游接口非兼容变更,以及 import-once + hasattr 的经典用法。
CUDA 12.9 车轮构建切换到 manylinux_2_28 基础镜像
该 PR 属于基础设施维护,逻辑清晰、改动极小,无需精读。但可作为 CI/CD 镜像策略变更的参考。
参与讨论