修复 VLM 包装模型上 EPLB 初始化崩溃
值得精读的 Bugfix PR,展示了如何处理协议接口与模型包装之间的兼容性问题。它同时修复了三条代码路径,模式清晰。gemini-code-assist 提出的重构建议(提取 helper)值得后续采纳。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 VLM 包装模型上 EPLB 初始化崩溃
值得精读的 Bugfix PR,展示了如何处理协议接口与模型包装之间的兼容性问题。它同时修复了三条代码路径,模式清晰。gemini-code-assist 提出的重构建议(提取 helper)值得后续采纳。
原始 PR · 作者 jikunshang · 合并时间 2026-05-14 09:47
XPU 支持 MXFP8 MoE 模型推理
建议精读 `xpu_moe.py` 中的类设计,特别是 `_supports_quant_scheme` 的分层覆盖模式,可用于后续新增量化方案。其余文件修改较小,可快速浏览。
为 score/rerank 端点添加 instruction 与 chat_template_kwargs 支持
值得精读。该 PR 是 scoring API 功能补齐的重要一步,展示了如何通过 Pydantic validator 组合字段、如何在预处理管道中引入新参数,以及如何设计向后兼容的 chat 模板。特别推荐给负责 entrypoints 和维护定制化 rerank 服务的开发者。
修复 V1 speculative decoding 中 draft_probs 未传递使 probabilistic rejection 失效
值得精读。本 PR 虽然改动量中等,但修复了一个重要的正确性问题,展示了 speculative decoding 中 draft_probs 的完整生命周期:从 proposer 采样时捕获,跨模块缓存,到 GPUModelRunner 按请求重新排列,最终传递给 rejection sampler。设计模式清晰,配套测试完善。尤其推荐关注 _get_spec_decode_draft_probs 中的请求顺序对齐逻辑。
修复 Gemma4 流式浮点数损坏
值得精读,展示了流式 diff 场景下防御性保留的典型处理模式。设计上只改动了最必要的部分,避免了过度工程。
Hermes 工具解析器提取公共工具函数
建议快速合并。这是良好的代码清理工作,降低重复,提高一致性。值得其他工具解析器参考这一模式。
修复 minimax_m2 工具解析器将 none/nil 错误转换为 None
值得精读。展示了工具解析器中类型转换与 schema 感知的结合,体现了保守修复与精确修复的设计权衡。测试代码清晰,可作为类似 bugfix 的参考。
原始 PR · 作者 divakar-amd · 合并时间 2026-05-14 07:53
限制 Skywork 模型 transformers 版本上限
作为临时修复,此 PR 快速解决了 CI 稳定问题。长期应关注 transformers 5.x 的兼容性,或推动 Skywork 官方修复其模型初始化。
参与讨论