Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 03:31 同步状态:空闲 下次计划:2026-05-31 04:31

PR 列表

更多筛选
2026-04-30
功能 重要性 9.12 洞察度 7.00

支持 D→P 双向 KV 传输以消除冗余预填充计算

建议精读调度器变更和示例代理设计,重点关注阈值调优和 HMA 兼容性。此 PR 体现了在现有框架上演进新功能的设计模式:通过配置门控最小化风险。

#39571 [KVConnector] MultiConnector SupportsHMA

原始 PR · 作者 NickLucche · 合并时间 2026-04-30 17:10

功能 重要性 7.90 洞察度 6.00

MultiConnector 支持 HMA 子连接器并实现分组请求终结

值得精读,特别是理解如何通过多重继承和运行时检查实现条件性接口支持,以及 '聚合回调' 的设计模式。测试设计清晰,展示了如何模拟接口及验证组合行为。建议关注后续接口抽离的 PR。

缺陷修复 重要性 6.86 洞察度 6.00

修复 chunk_kda 中 hidden state 布局错误,修正输出计算

该 PR 值得精读,展示了矩阵布局错误可能导致严重的精度损失,以及通过参考实现验证修复的重要性。设计决策包括保持与 FLA 库布局一致,通过转置而非修改存储侧,最小化变更。新增的测试框架和 CI 集成也值得借鉴。

#41206 Fix Gemma4 MoE expert weight remapping

原始 PR · 作者 Baekpica · 合并时间 2026-04-30 15:12

缺陷修复 重要性 6.34 洞察度 4.00

修复Gemma4 MoE权重重映射重复.moe前缀的bug

此PR虽小但修复了一个明确的加载崩溃bug,设计上使用负向lookbehind简洁有效。建议负责模型加载的开发者关注此实现,并在其他类似需要条件替换的场景中复用此模式。

#40582 Fix Cohere ASR after HF upgrade

原始 PR · 作者 ekagra-ranjan · 合并时间 2026-04-30 14:39

缺陷修复 重要性 7.71 洞察度 5.00

修复 Cohere ASR 因 HF 升级导致的 token 编码问题

值得精读,特别是 `get_generation_prompt` 的重构以及如何绕过 Fast tokenizer 的限制。对维护多模态和 ASR 模型的开发者有参考价值。

参与讨论