MRV2 支持 Llama 与 Mistral 密集模型
建议在合并后密切监控 Llama/Mistral 相关测试的稳定性,并优先处理 force_v1_runner 的环境变量覆盖问题。该 PR 值得精读,展示了 MRV2 激活的标准流程测试适配模式。
标签列表
聚合结果
MRV2 支持 Llama 与 Mistral 密集模型
建议在合并后密切监控 Llama/Mistral 相关测试的稳定性,并优先处理 force_v1_runner 的环境变量覆盖问题。该 PR 值得精读,展示了 MRV2 激活的标准流程测试适配模式。
原始 PR · 作者 benchislett · 合并时间 2026-05-20 21:15
为 NemotronH 添加非 MTP 推测解码支持
建议精读 `nemotron_h.py` 中 `forward` 方法的改动,理解 `_maybe_add_hidden_state` 的收集机制。同时关注 `EagleModelMixin` 的定义,以评估后续推测解码设计的可扩展性。
支持 EAGLE-3 后归一化与动态辅助隐藏状态
该 PR 值得精读,尤其是在 vLLM 中如何灵活扩展推测解码模型架构的范例。关键设计决策包括:动态辅助状态数量、两种归一化方案(全局 vs 逐块)以及输出归一化选择,为后续模型支持提供了模式。建议关注配置兼容性和潜在覆盖风险的后续处理。
精简 CI LoRA 测试,跳过冗余项
建议关注被跳过多 GPU 测试的死代码问题,考虑仅在 CI 特定标记而非平台级别跳过;对于 AMD CI,建议验证实际运行测试是否有效;此 PR 的设计决策值得学习,但覆盖风险需接受。
替换 tokenizer.encode/decode 为 vocab 查找修复并发借用
值得精读。展示了如何通过消除共享可变状态而非加锁来解决并发问题,方法简洁高效。关注的重点:利用 tokenizer 内部已缓存的 vocabl(线程安全)替代 encode 调用,这是典型的“移走而非保护”策略。