#37899 [Frontend][Bugfix] Pass default_chat_template_kwargs to AnthropicServingMessages
作者 jetxa · 合并时间 2026-03-24 13:00
修复 Anthropic 服务端点中默认聊天模板参数传递缺失的 bug。
此 PR 变更简单,无需深入精读。对于工程师,可以作为示例理解前端 entrypoints 中参数传递的流程;对于管理者,是一个低风险的维护性修复,建议关注配置传递的完整性。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 jetxa · 合并时间 2026-03-24 13:00
修复 Anthropic 服务端点中默认聊天模板参数传递缺失的 bug。
此 PR 变更简单,无需深入精读。对于工程师,可以作为示例理解前端 entrypoints 中参数传递的流程;对于管理者,是一个低风险的维护性修复,建议关注配置传递的完整性。
作者 khluu · 合并时间 2026-03-24 11:36
将release pipeline的构建队列从postmerge迁移到release队列,提升隔离与安全性。
此PR变更简单直接,无需深入代码阅读;关注点在于CI配置的隔离改进,建议验证构建流程在合并后的稳定性,并考虑添加相关测试覆盖。
作者 khluu · 合并时间 2026-03-24 11:36
将CPU CI测试作业设备降级到small和medium队列以削减成本。
建议工程团队关注这些降级作业的CI稳定性,监控失败率;如有频繁失败,应考虑回滚到标准队列或添加soft_fail选项以降低阻塞风险。
作者 yewentao256 · 合并时间 2026-03-24 11:10
将kv缓存从列表形式重构为直接元素,简化代码并移除冗余包装。
建议:对于涉及vllm中kv缓存模块的开发者,此PR值得精读,以理解代码简化过程和设计决策。关注点包括bind_kv_cache的修改和_cleanup_profiling_kv_cache的健壮性处理。
作者 AndreasKaratzas · 合并时间 2026-03-24 09:48
将AMD CI中的Entrypoints集成测试作业拆分为三个并行作业,以优化ROCm硬件回归跟踪。
对于关注CI配置或ROCm测试的工程师,值得快速浏览以了解测试拆分模式;review中提出的可维护性问题值得在类似更改中考虑,但PR本身逻辑简单。
作者 yewentao256 · 合并时间 2026-03-24 09:16
添加批量不变性测试覆盖 Block FP8 和小型 MoE 模型。
此 PR 变更简单,适合快速审阅,关注点在于测试覆盖的扩展和环境变量设置的最佳实践,建议工程师在类似 CI 配置时借鉴此改进。
作者 TheEpicDolphin · 合并时间 2026-03-24 09:14
修复 Model Runner V2 中多模态嵌入聚集时机错误,避免草稿模型跳过嵌入计算。
对于技术管理者和工程师,此 PR 值得快速审阅以确认修复逻辑。可以关注状态管理时机的重要性,尤其是在异步和推测解码场景中,作为学习案例。
作者 roikoren755 · 合并时间 2026-03-24 08:49
为Nemotron-3-Super模型添加BF16、FP8和NVFP4量化格式的端到端GSM8K测试。
该PR值得快速浏览以了解Nemotron-3-Super模型的测试配置细节,特别关注YAML文件中的模型命名一致性和CI资源设置。对于工程师,可学习如何集成推测解码到端到端测试中;对于管理者,可视为测试覆盖扩展的常规更新。
参与讨论