Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-16

#42673 [Model Runner v2] Support reload weights (sleep mode)

原始 PR · 作者 yewentao256 · 合并时间 2026-05-16 00:41

功能重要性 6.08 洞察度 4.00

MR v2 支持权重重载（sleep mode）

建议在完成 v2 完全迁移后，移除此委托方法并直接内联实现。同时应补充单元测试覆盖 `reload_weights` 调用后的缓存重置行为。

v1refactorfeature

#41775 [Model Runner V2] FP32 gumbel sampling.

原始 PR · 作者 PatchouliTIS · 合并时间 2026-05-16 00:20

性能优化重要性 7.10 洞察度 6.00

Gumbel 采样默认使用 FP32 以提升性能

值得精读学习如何在 Triton 内核中安全切换 FP32/FP64 并处理边界值；以及从环境变量演化到引擎标志的设计决策过程，体现了代码的健壮性和可维护性。

performancev1kernel

2026-05-15

#42509 [ROCm][MLA] FP8 ASM prefill for AITER dense MLA backend on gfx950

原始 PR · 作者 maeehart · 合并时间 2026-05-15 23:56

性能优化重要性 8.78 洞察度 7.00

FP8 ASM 预填充加速 ROCm gfx950 MLA 预填充

值得精读，特别是如何设计自动检测与优雅回退、以及在元数据构建阶段预计算以避免 forward 中同步的技巧，对编写高性能 attention 后端有参考价值。

rocmperformancev1

#42631 [Perf] Set IR Op Priority Once at Worker Init

原始 PR · 作者 BadrBasowid · 合并时间 2026-05-15 23:56

性能优化重要性 8.40 洞察度 5.00

将 IR op 优先级和 torch wrap 设置移至 Worker 初始化时一次性完成

值得精读。展示了如何识别和消除运行时重复配置，是性能优化的典型模式。设计上新增 `set_default` 方法分离初始化与运行时逻辑，对类似问题有参考价值。

performancev1refactor

#42135 [Bugfix] Fix DeepGEMM context lens contiguity in MLA indexer

原始 PR · 作者 mmangkad · 合并时间 2026-05-15 23:29

缺陷修复重要性 6.34 洞察度 6.00

修复 MLA indexer 中 DeepGEMM context_lens 非连续问题

该 PR 值得精读，展示了在处理 CUDA graph 兼容性时如何避免动态内存分配的设计模式：通过预分配 1D 平坦缓冲区并在运行时用 view 重塑，而非调用 `.contiguous()`。同样的思路可应用于其他需要为外部 kernel 提供连续 tensor 的场合。

bugfixv1performance

#42561 [Perf] Optimize MLA attention `_v_up_proj` bmm by removing additional copy

原始 PR · 作者 yewentao256 · 合并时间 2026-05-15 23:14

性能优化重要性 5.75 洞察度 4.00

优化 MLA 注意力 _v_up_proj 的 bmm 效率

建议合并。该 PR 是一个清晰的性能微优化与代码清理，逻辑正确且风险极低。值得关注的是如何利用 `torch.bmm` 的 `out` 视图来避免额外复制，类似技巧可用于其他类似场景。

performancev1attention

#42676 [Model Runner V2] Fix kv_connector `pre_forward` order

原始 PR · 作者 yewentao256 · 合并时间 2026-05-15 23:14

缺陷修复重要性 4.00 洞察度 3.00

修复 KV Connector pre_forward 调用顺序

值得快速合并。这是 Model Runner V2 迁移的明确 bugfix，代码量小且已通过测试验证。

bugfixkv-connectorv1

#37826 [ROCm] Widen OAI Triton MoE capability range to include gfx12 (RDNA4)

原始 PR · 作者 laudney · 合并时间 2026-05-15 22:59

功能重要性 7.25 洞察度 7.00

扩展 OAI Triton MoE ROCm 支持至 RDNA4

值得精读：本 PR 展示了在跨平台代码中处理设备功能检测的简洁方法，避免了 capability 元组因供应商实现不同而产生的别名问题。关注点：如何通过字符串匹配（`on_gfx1x`）避免硬编码 capability 数字，以及如何通过集中化辅助函数消除重复。

rocmfeaturegpt-oss

第 74 / 269 页 · 共 2150 条

上一页 1 … 72 73 74 75 76 … 269 下一页