Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

mamba 相关 PR

2026-04-15

#36162 [Mamba] Flashinfer selective_state_update

作者 roikoren755 · 合并时间 2026-04-15 03:10

功能 重要性 9.18 洞察度 6.00

为Mamba模型添加FlashInfer selective_state_update内核支持,提供运行时后端调度。

v1 feature performance kernel mamba

该PR值得精读,重点关注调度器设计如何平衡灵活性与性能、配置集成的模式选择,以及测试覆盖对稳定性的保障。

2026-04-07

#37635 [NIXL][Mamba][3/N] Heterogeneous TP: 3-read conv state transfer

作者 ZhanqiuHu · 合并时间 2026-04-07 01:07

功能 重要性 9.18 洞察度 6.00

为混合注意力+Mamba模型实现异构TP的3-read RDMA卷积状态传输,支持Prefill与Decode引擎TP大小不同。

kv-connector feature v1 core mamba

该PR值得精读,尤其是对于从事分布式推理或Mamba模型优化的工程师。关注设计决策:3-read传输如何利用DS布局避免排列开销、HeteroTPTransferConfig作为单一数据源的处理方式、以及GQA头映射修正对准确性的关键影响。建议结合#37416和#37603理解整体演进脉络。