#43445 [Spec Decode] Allow causal DFlash
原始 PR · 作者 benchislett · 合并时间 2026-05-29 05:18
DFlash 支持可配置因果注意力
建议快速合入,改动清晰且风险低。设计上使用 property 而非构造函数注入,值得学习。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 benchislett · 合并时间 2026-05-29 05:18
DFlash 支持可配置因果注意力
建议快速合入,改动清晰且风险低。设计上使用 property 而非构造函数注入,值得学习。
原始 PR · 作者 WoosukKwon · 合并时间 2026-05-29 05:04
移除 DSv4 中不必要的 torch op 注册
对于关注 DSv4 模型开发的同学,值得阅读此 PR 以了解如何清理 torch.compile 依赖。对于其他模型开发者,可作为简单的重构样例。
新增 per-request 卸载策略和生命周期钩子
值得精读,特别是设计决策(抽象方法、只跟踪 REQUEST_LEVEL 层、命名选择)可供参考。建议关注 `on_new_request` 和级联逻辑的实现。
清理 KVConnector 处理并修复 PP 下 MRV2 输出
值得精读,特别是 `with_kv_conn_output_only` 静态方法的设计:通过一个工厂方法统一了空输出创建的逻辑,避免了多处重复的 `copy` 和判断。这种模式在需要返回带可选字段的空容器时非常有用,可以推广到项目中其他类似场景。
原始 PR · 作者 rajkiranjoshi · 合并时间 2026-05-29 03:45
支持 per-GPU worker RDMA NIC 选择
值得精读,尤其 PCI BDF 规范化和 sysfs 遍历的实现可供其他 RDMA 相关特性参考。设计决策(仅 NVML、去除 prefetch)体现了简化优先的务实思路。
废弃 JAISLMHeadModel 模型,移除支持
该 PR 提供了一个良好的废弃模型清理模板,包括删除源代码、更新注册表、添加废弃记录、更新测试和文档。值得在类似场景下参考。
原始 PR · 作者 huanghua1994 · 合并时间 2026-05-29 02:22
优化 Qwen2.5-VL encoder CUDA graph 窗口序列上界,B200 性能提升 3x+
该 PR 值得精读,展示了在 CUDA graph replay 中处理变长输入的正确姿势,尤其是 `padding_logics` 设计模式体现了插件化思想。评审过程中对灵活性与显式性之间的权衡也值得关注。
原始 PR · 作者 JohnQinAMD · 合并时间 2026-05-29 02:19
启用 ROCm aiter 采样器并移除硬编码禁用标志
本 PR 变更极小但影响明确,建议 ROCm 用户确认 aiter 版本后合并。值得关注的是 review 中关于日志级别、版本依赖和验证方法的讨论,对后续类似 PR 有参考意义。
参与讨论