#39293 [Bugfix][Model] Fix Devstral Small 2 HF format weight loading
原始 PR · 作者 thomasmaindron · 合并时间 2026-04-14 18:11
修复 Devstral Small 2 HF 格式权重加载
值得合并。改动小(11 新增、7 删除),但有明确的用户价值(修复 HF 格式加载阻塞)。建议注意 `architectures` 覆盖的潜在问题,后期可考虑以默认值方式替代。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 thomasmaindron · 合并时间 2026-04-14 18:11
修复 Devstral Small 2 HF 格式权重加载
值得合并。改动小(11 新增、7 删除),但有明确的用户价值(修复 HF 格式加载阻塞)。建议注意 `architectures` 覆盖的潜在问题,后期可考虑以默认值方式替代。
原始 PR · 作者 fxmarty-amd · 合并时间 2026-04-14 17:35
修复MOE专家权重加载中intermediate_size维度未正确裁剪导致的形状不匹配问题。
该PR值得精读,特别是_narrow_expert_data_for_padding方法的修改和review中关于API设计的讨论。关注点:1) 如何优雅地处理多维度裁剪;2) 默认值设计的最佳实践(避免使用有歧义的哨兵值)。
原始 PR · 作者 zxd1997066 · 合并时间 2026-04-14 17:27
移除Mergify配置中易误匹配的'Arc'标签规则,避免误标PR。
该PR变更简单,无需精读。值得关注的是review中提出的正则优化建议,虽未采纳,但展示了配置维护的最佳实践。对于涉及CI配置的工程师,可参考此讨论以优化类似标签规则。
新增TxtSlicesDataset数据集,允许从txt文件采样切片以改进基准测试的数据质量。
该PR值得精读,特别是设计决策:如何平衡数据真实性和可复现性,以及review中的讨论展示了团队对代码侵入性和可维护性的权衡。关注 `get_sampling_params` 函数的重构和 `RangeRatio` 类型的引入,这些通用性改进可应用于其他数据集类型;同时,学习妥协方案:将功能实现为外部脚本而非核心集成,以减少耦合。
原始 PR · 作者 shen-shanshan · 合并时间 2026-04-14 16:49
扩展ViT全CUDA图支持到Qwen3-VL视频推理,提升多模态编码性能。
建议技术管理者和工程师精读此PR,以理解CUDA图在多模态编码中的扩展设计。重点关注`get_input_modality`方法实现、`max_frames_per_batch`参数处理,以及review中讨论的权衡决策(如缓存移除和命名更改),这些对类似性能优化和协议设计具有借鉴意义。同时,关注后续PR中混合输入支持的演进。
将 pooling 入口点的阻塞预处理和后处理卸载到线程池以减少延迟回归。
建议工程师精读此 PR,重点关注线程池如何集成到 serving 基类中,以及 make_async 的使用方式。设计决策值得学习,尤其是如何平衡同步和异步处理以优化性能,同时注意 review 中提到的 bug 修复点。
Ernie-4.5 VL模型的M-RoPE位置计算从基于token扫描重构为使用mm_features数据契约。
建议工程师精读此PR,关注如何通过`iter_mm_grid_thw`辅助方法将复杂token扫描逻辑抽象为清晰的数据迭代器,以及多模态数据契约(`mm_features`)在设计中的应用。对于涉及位置编码或模型重构的任务,这是一个值得借鉴的设计决策示例。
引入PrefillStats替换旧缓存令牌统计字段,修复调度器preemption下的metrics错误。
该PR值得精读,特别是调度器如何跟踪首次prefill stats的设计决策,以及review中关于metrics计算和错误处理的深度讨论,为类似场景提供了权衡案例。
参与讨论