为 score/rerank 端点添加 instruction 与 chat_template_kwargs 支持
值得精读。该 PR 是 scoring API 功能补齐的重要一步,展示了如何通过 Pydantic validator 组合字段、如何在预处理管道中引入新参数,以及如何设计向后兼容的 chat 模板。特别推荐给负责 entrypoints 和维护定制化 rerank 服务的开发者。
A high-throughput and memory-efficient inference and serving engine for LLMs
为 score/rerank 端点添加 instruction 与 chat_template_kwargs 支持
值得精读。该 PR 是 scoring API 功能补齐的重要一步,展示了如何通过 Pydantic validator 组合字段、如何在预处理管道中引入新参数,以及如何设计向后兼容的 chat 模板。特别推荐给负责 entrypoints 和维护定制化 rerank 服务的开发者。
修复 V1 speculative decoding 中 draft_probs 未传递使 probabilistic rejection 失效
值得精读。本 PR 虽然改动量中等,但修复了一个重要的正确性问题,展示了 speculative decoding 中 draft_probs 的完整生命周期:从 proposer 采样时捕获,跨模块缓存,到 GPUModelRunner 按请求重新排列,最终传递给 rejection sampler。设计模式清晰,配套测试完善。尤其推荐关注 _get_spec_decode_draft_probs 中的请求顺序对齐逻辑。
修复 Gemma4 流式浮点数损坏
值得精读,展示了流式 diff 场景下防御性保留的典型处理模式。设计上只改动了最必要的部分,避免了过度工程。
Hermes 工具解析器提取公共工具函数
建议快速合并。这是良好的代码清理工作,降低重复,提高一致性。值得其他工具解析器参考这一模式。
修复 minimax_m2 工具解析器将 none/nil 错误转换为 None
值得精读。展示了工具解析器中类型转换与 schema 感知的结合,体现了保守修复与精确修复的设计权衡。测试代码清晰,可作为类似 bugfix 的参考。
原始 PR · 作者 divakar-amd · 合并时间 2026-05-14 07:53
限制 Skywork 模型 transformers 版本上限
作为临时修复,此 PR 快速解决了 CI 稳定问题。长期应关注 transformers 5.x 的兼容性,或推动 Skywork 官方修复其模型初始化。
修复 V1 ubatch wrapper 不支持元组输出
该 PR 是典型的高信噪比 bugfix,逻辑清晰,改动集中,值得精读。推荐的关注点: 1. `_cat_ubatch_outputs` 的设计模式:如何用极少的代码优雅扩展原有单 Tensor 思维到元组输出,可推广到其他需要合并异构返回值的场景。 2. CUDA Graph 捕获路径与非捕获路径共享同一合并逻辑的实践,体现了一处定义、多处复用的好习惯。 3. 作者对 CI 失败的分析方法:逐项确认失败是否与自身变更相关,值得借鉴。
修复 DeepSeek V4 MTP HC 状态处理不匹配
建议精读,因为该 PR 展示了如何快速修复跨模块的接口兼容性问题,并体现了 review 推动代码优化的良性流程。
参与讨论