修复 mergify 标注导致 pre-commit 被跳过
此 PR 值得快速合并,修复了 CI 流程中的回归问题,逻辑清晰,改动小。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 mergify 标注导致 pre-commit 被跳过
此 PR 值得快速合并,修复了 CI 流程中的回归问题,逻辑清晰,改动小。
修复 RTD 文档构建因 PyTorch URL 失效
可精读但不必要:变更简单直接,TODO 注释清晰。 值得关注的是上游 PyTorch issue #182007 的修复进展,以便及时恢复 URL。
MoERunnerInterface 继承 PluggableLayer 实现 OOT 替换
值得精读,了解如何利用 `PluggableLayer` 设计模式支持 OOT 扩展。关注 `_quant_method` 命名规范和前缀变更。
支持 D→P 双向 KV 传输以消除冗余预填充计算
建议精读调度器变更和示例代理设计,重点关注阈值调优和 HMA 兼容性。此 PR 体现了在现有框架上演进新功能的设计模式:通过配置门控最小化风险。
原始 PR · 作者 NickLucche · 合并时间 2026-04-30 17:10
MultiConnector 支持 HMA 子连接器并实现分组请求终结
值得精读,特别是理解如何通过多重继承和运行时检查实现条件性接口支持,以及 '聚合回调' 的设计模式。测试设计清晰,展示了如何模拟接口及验证组合行为。建议关注后续接口抽离的 PR。
修复 chunk_kda 中 hidden state 布局错误,修正输出计算
该 PR 值得精读,展示了矩阵布局错误可能导致严重的精度损失,以及通过参考实现验证修复的重要性。设计决策包括保持与 FLA 库布局一致,通过转置而非修改存储侧,最小化变更。新增的测试框架和 CI 集成也值得借鉴。
修复Gemma4 MoE权重重映射重复.moe前缀的bug
此PR虽小但修复了一个明确的加载崩溃bug,设计上使用负向lookbehind简洁有效。建议负责模型加载的开发者关注此实现,并在其他类似需要条件替换的场景中复用此模式。
原始 PR · 作者 ekagra-ranjan · 合并时间 2026-04-30 14:39
修复 Cohere ASR 因 HF 升级导致的 token 编码问题
值得精读,特别是 `get_generation_prompt` 的重构以及如何绕过 Fast tokenizer 的限制。对维护多模态和 ASR 模型的开发者有参考价值。
参与讨论