支持递归工具参数类型转换
建议合并,但需关注空字符串行为变化,考虑补充对应测试或文档说明。设计模式值得学习:使用 `Into<ParamInput>` 桥接新旧输入,以及递归模式处理策略。
A high-throughput and memory-efficient inference and serving engine for LLMs
支持递归工具参数类型转换
建议合并,但需关注空字符串行为变化,考虑补充对应测试或文档说明。设计模式值得学习:使用 `Into<ParamInput>` 桥接新旧输入,以及递归模式处理策略。
移除 XPU W4A16 kernel 的输出尺寸检查
该 PR 值得合入,属于必要的约束放宽,应尽快集成到发布版本中。鉴于无相关测试,建议后续增加对非 32 倍数输出尺寸的端到端推理测试。
修复多模态模型 GDN prefill 后端选择 bug
此 PR 是典型的数据契约 bugfix,改动极小但影响关键路径,值得快速合入。建议关注类似的多模态配置属性访问模式,并在仓库内建立统一使用 `hf_text_config` 的惯例。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-06-02 22:15
同步 flash-attention 上游依赖的 GIT_TAG
此 PR 为常规依赖同步,无特殊技术价值,但值得留意 future 中是否因版本升级引入问题。
Vendor MiniCPMV/MiniCPMO 处理器以解锁 Transformers v5 升级
建议开发者关注 vendor 处理器与上游的差异,确保后续 Transformers 升级时及时同步更新。此 PR 采用的 vendor 策略(直接复制关键依赖)适用于其他类似场景,但需评估长期维护成本。同时,建议增加更多端到端测试以覆盖新处理器的各种输入组合。
原始 PR · 作者 TomerBN-Nvidia · 合并时间 2026-06-02 21:56
为 MXFP8 MoE 添加对 RELU2_NO_MUL 激活的支持
该 PR 功能明确、改动集中,评审无重大分歧,建议合并。但精读价值不高,主要关注点在于如何通过条件分支兼容不同激活和量化模式的设计模式。未来应考虑将 TRTLLM MXFP8 MoE 集成到统一 oracle 路径。
原始 PR · 作者 lucianommartins · 合并时间 2026-06-02 21:42
修复 Gemma4 启动时因 transformers 升级导致的崩溃
建议批准合并,修复明确且无副作用。同时建议后续为 `Gemma4MultiModalProcessor` 的 `_apply_hf_processor_text_only` 添加单元测试,防止类似回归。
原始 PR · 作者 Gruner-atero · 合并时间 2026-06-02 21:41
修复混合Mamba模型block_size同步问题
该 PR 是一个针对明确 bug 的精准修复,改动量小,逻辑清晰,且带有单元测试。值得精读,尤其是理解 `_align_hybrid_block_size` 对 block_size 的影响以及 `EngineCoreReadyResponse` 的同步机制。对于维护监控指标正确性的开发者有参考价值。
参与讨论