Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

mamba 相关 PR

2026-06-02
功能 重要性 7.67 洞察度 5.00

为 XPU 添加 Triton 实现的 Mamba selective scan 前向操作

**值得精读**:对 Triton kernel 的开发者和硬件移植团队有参考价值,展示了如何将 CUDA 自定义算子移植到 Triton 并在新硬件上运行。**设计决策关注点**:选择 Triton 而非原生 SYCL 或 Level Zero,降低了开发成本但牺牲了部分性能;并行化策略的取舍(访存 vs 计算)是典型 trade-off,读者可对比仓库中其他 Triton kernel(如 `fused_moe`)的维度安排。**后续跟进**:建议作者或社区优先优化访存模式(如交换 dim/seqlen 的并行维度),并补充 Triton kernel 的单元测试。

2026-05-28
性能优化 重要性 4.37 洞察度 6.00

移除 Mamba SSD 内核死参数,TTFT 降低 17%

建议仔细审查以确保所有内核的 `seqlen` 参数均已移除,并考虑在类似内核中检查其他可能引发重编译的整型参数。

2026-05-22
缺陷修复 重要性 6.56 洞察度 6.00

一行修复 Mamba CUDA graph 填充行 is_prefilling 残留错误

值得精读,可作为 CUDA graph 元数据生命周期管理的典型修复案例。注意:Mamba 是唯一使用 `treat_short_extends_as_decodes=False` 的后端,此修复针对该特例。

2026-05-10
缺陷修复 重要性 4.42 洞察度 5.00

修复 causal_conv1d 超长序列 IMA 问题

值得 merge:改动简洁、针对性强,有完整的问题复现和性能验证。可参考此 PR 的模式,检查其他 Triton kernel 中是否也存在类似 int32 溢出风险。

2026-04-15

#36162 [Mamba] Flashinfer selective_state_update

原始 PR · 作者 roikoren755 · 合并时间 2026-04-15 03:10

功能 重要性 9.18 洞察度 6.00

为Mamba模型添加FlashInfer selective_state_update内核支持,提供运行时后端调度。

该PR值得精读,重点关注调度器设计如何平衡灵活性与性能、配置集成的模式选择,以及测试覆盖对稳定性的保障。

2026-04-07
功能 重要性 9.18 洞察度 6.00

为混合注意力+Mamba模型实现异构TP的3-read RDMA卷积状态传输,支持Prefill与Decode引擎TP大小不同。

该PR值得精读,尤其是对于从事分布式推理或Mamba模型优化的工程师。关注设计决策:3-read传输如何利用DS布局避免排列开销、HeteroTPTransferConfig作为单一数据源的处理方式、以及GQA头映射修正对准确性的关键影响。建议结合#37416和#37603理解整体演进脉络。