Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 22:49 同步状态:空闲 下次计划:2026-06-13 23:49

PR 列表

更多筛选
2026-05-20

#43143 [Cohere] Enable Cohere MoE

原始 PR · 作者 Terrencezzj · 合并时间 2026-05-20 10:32

功能 重要性 3.12 洞察度 2.00

启用 Cohere Command A+ MoE 模型

该 PR 改动很小,但代表了 Cohere Command A+ 模型的正式发布入口。建议模型集成相关团队关注,确认文档中的 curl 示例是否需要修复以匹配正确的模型名。

重构 重要性 5.10 洞察度 4.00

放宽 WeightTransferConfig.backend 类型约束,允许任意字符串

建议快速合并。这是一个小而明确的改进,提升可扩展性且风险极低。值得关注的是其设计模式:将验证从配置层推迟到工厂方法,实现了配置的开放性和运行时灵活性。

#41277 Fix error in Dynamic NTK scaling

原始 PR · 作者 maxdebayser · 合并时间 2026-05-20 05:27

缺陷修复 重要性 7.61 洞察度 6.00

修复 Dynamic NTK RoPE 缩放公式为变量而非常量

建议合并。核心贡献是修正了一个长期存在的公式错误,并使 Nomic 模型的默认行为与社区对齐。推荐阅读 `dynamic_ntk_scaling_rope.py` 中的核心公式修正和 `config.py` 中简化后的配置逻辑。开发者在升级后应检查自家 Nomic 模型是否通过 `rope_parameters` 自定义了缩放参数。

功能 重要性 7.25 洞察度 6.00

支持 EAGLE-3 后归一化与动态辅助隐藏状态

该 PR 值得精读,尤其是在 vLLM 中如何灵活扩展推测解码模型架构的范例。关键设计决策包括:动态辅助状态数量、两种归一化方案(全局 vs 逐块)以及输出归一化选择,为后续模型支持提供了模式。建议关注配置兼容性和潜在覆盖风险的后续处理。

基础设施 重要性 2.80 洞察度 1.00

将混合语言模型测试从 H200 迁移回 L4

该 PR 属于运维性质的小调整,不建议精读代码。但值得关注的是,持续在 H200 上失败可能暗示更深层的兼容性或配置问题,建议后续跟进 H200 MIG 的根因。

缺陷修复 重要性 6.42 洞察度 4.00

禁用 FlashInfer 持久化缓存以规避文件缓存碰撞导致的运行错误

建议尽快合入以修复 CI 失败。代码逻辑清晰,并且设计了方便的恢复路径(修改布尔常量即可);待上游 FlashInfer 修复后应移除该工作区并用回文件缓存。

参与讨论