Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-29

#43445 [Spec Decode] Allow causal DFlash

原始 PR · 作者 benchislett · 合并时间 2026-05-29 05:18

功能 重要性 6.61 洞察度 4.00

DFlash 支持可配置因果注意力

建议快速合入,改动清晰且风险低。设计上使用 property 而非构造函数注入,值得学习。

缺陷修复 重要性 7.11 洞察度 5.00

清理 KVConnector 处理并修复 PP 下 MRV2 输出

值得精读,特别是 `with_kv_conn_output_only` 静态方法的设计:通过一个工厂方法统一了空输出创建的逻辑,避免了多处重复的 `copy` 和判断。这种模式在需要返回带可选字段的空容器时非常有用,可以推广到项目中其他类似场景。

功能 重要性 9.06 洞察度 6.00

支持 per-GPU worker RDMA NIC 选择

值得精读,尤其 PCI BDF 规范化和 sysfs 遍历的实现可供其他 RDMA 相关特性参考。设计决策(仅 NVML、去除 prefetch)体现了简化优先的务实思路。

#43784 Deprecate `JAISLMHeadModel`

原始 PR · 作者 hmellor · 合并时间 2026-05-29 02:29

其他 重要性 8.75 洞察度 3.00

废弃 JAISLMHeadModel 模型,移除支持

该 PR 提供了一个良好的废弃模型清理模板,包括删除源代码、更新注册表、添加废弃记录、更新测试和文档。值得在类似场景下参考。

性能优化 重要性 7.86 洞察度 6.00

优化 Qwen2.5-VL encoder CUDA graph 窗口序列上界,B200 性能提升 3x+

该 PR 值得精读,展示了在 CUDA graph replay 中处理变长输入的正确姿势,尤其是 `padding_logics` 设计模式体现了插件化思想。评审过程中对灵活性与显式性之间的权衡也值得关注。

功能 重要性 4.02 洞察度 5.00

启用 ROCm aiter 采样器并移除硬编码禁用标志

本 PR 变更极小但影响明确,建议 ROCm 用户确认 aiter 版本后合并。值得关注的是 review 中关于日志级别、版本依赖和验证方法的讨论,对后续类似 PR 有参考意义。

参与讨论