Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 02:27 同步状态：空闲下次计划：2026-05-31 03:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-27

#40941 [Attention][TurboQuant] Share dequant buffers, eliminate float16_copy

原始 PR · 作者 bhoomit · 合并时间 2026-04-27 13:48

性能优化重要性 7.56 洞察度 5.00

共享 TQ 去量化缓冲区并消除 float16_copy

值得精读，展示了注意力后端中从逐层缓冲区到全局 WorkSpace 管理的演进，以及 Triton 核函数级别的优化技巧。对于关注推理引擎性能优化的工程师有参考价值。

performancerefactorattention

#38065 [Perf] FP8 FlashInfer Attn for ViT

原始 PR · 作者 zhandaz · 合并时间 2026-04-27 13:44

性能优化重要性 9.18 洞察度 7.00

ViT 编码器注意力 FP8 量化加速

建议精读。特别是 FP8 缩放策略的设计（动态 vs 静态）、自动保存机制以及 Triton kernel 的 stride-aware 实现。对于需要优化多模态流水线的工程师具有直接参考价值。

performancemulti-modalityqwen

#35450 Cutlass W4A16 (Machete) Tests

原始 PR · 作者 ojhaanshika · 合并时间 2026-04-27 13:15

测试重要性 6.04 洞察度 5.00

新增 Cutlass W4A16 内核端到端集成测试

建议所有涉及量化内核的开发者阅读此 PR，尤其是测试结构：使用参数化分离单元测试与端到端测试，通过 fixture 统一设置环境变量。CI 集成方式也值得推广。

testquantizationkernel

#40946 [Bugfix] Cap SWA/chunked-local runtime admission to startup pool-sizing bound

原始 PR · 作者 Dao007forever · 合并时间 2026-04-27 12:33

缺陷修复重要性 7.90 洞察度 6.00

修复 SWA 运行时准入与启动池大小计算不一致导致调度死锁

建议仔细阅读此 PR，尤其是单真源设计（singlesource of truth）在 admission 与 pool sizing 间的应用。值得关注的设计决策：将 cap 逻辑置于 manager 内部而非 coordinator 层，避免了 #39866/#40027 中的准入与分配分裂问题。代码实现简洁，注释清晰，适合作为 KV cache 准入逻辑的学习参考。

bugfixperformancetest

#40907 [Tests] Gate Isaac under Transformers v5

原始 PR · 作者 SiluPanda · 合并时间 2026-04-27 10:26

测试重要性 4.59 洞察度 3.00

为 Isaac 模型添加 Transformers v5 版本门控

此 PR 是 Transformers v5 兼容性工作的典型增量——对单个模型添加版本门控。建议精读以理解 `_HfExamplesInfo` 的版本门控模式，便于后续类似问题的快速修复。

testmodelcleanup

#40651 [Model Runner V2] Fix rejection sampling acceptance rate gap vs MRV1

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-27 10:12

缺陷修复重要性 7.89 洞察度 6.00

MRV2 启用 one-hot 拒绝采样，修复接受率差距

建议所有使用 MRV2 推测解码的同学阅读此 PR，了解新的 `draft_sample_method` 配置及其对接受率和内存的影响。特别值得关注的设计模式是：通过 Triton 编译常量（`HAS_DRAFT_LOGITS`）在编译期分支内核逻辑，无运行时开销。同时关注后续可能的扩展：允许在不缓存 draft logits 的情况下使用随机采样。

speculative-decodingv1bugfix

#40812 Auto-disable expandable_segments around cumem memory pool

原始 PR · 作者 youkaichao · 合并时间 2026-04-27 09:37

缺陷修复重要性 6.62 洞察度 5.00

自动禁用expandable_segments以兼容cumem内存池

建议精读此PR，特别是`use_memory_pool`的`try/finally`重构和异常安全处理。设计上值得关注的是：在框架API不完善时，用环境变量加私有API实现临时开关；以及通过嵌套上下文管理器保持全局状态一致性的模式。

bugfixperformancenvidia

#40860 [Feat] DeepSeek V4 Rebased

原始 PR · 作者 ivanium · 合并时间 2026-04-27 09:31

功能重要性 9.48 洞察度 8.00

新增 DeepSeek V4 完整模型支持

值得深入精读。该 PR 展示了大规模模型集成的完整流程，特别关注 `deepseek_v4_attention.py` 中的 MLA 实现、`mhc.py` 的 TileLang kernel 设计，以及量化策略的权衡。评审中关于 API 设计和硬件兼容性的讨论也值得借鉴。

deepseekfeaturespeculative-decoding

第 127 / 253 页 · 共 2018 条

上一页 1 … 125 126 127 128 129 … 253 下一页