Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-16

#42648 Add HumanEval and GSM8K benchmarks to datasets

原始 PR · 作者 southfreebird · 合并时间 2026-05-16 04:01

功能重要性 6.21 洞察度 4.00

添加 HumanEval 和 GSM8K 基准测试数据集

对于需要扩展基准数据集的开发者，这是一个良好的参考实例，展示了如何遵循现有模式添加 HuggingFace 数据集。

featureperformancedocumentation

#42685 [FlashAttn] Fix supports_kv_cache_dtype() accepting unhandled fp8 kv-cache dtype variants

原始 PR · 作者 liulanze · 合并时间 2026-05-16 03:35

缺陷修复重要性 7.12 洞察度 5.00

修复 FlashAttn 错误接受未处理 FP8 缓存类型

建议阅读 supports_kv_cache_dtype 的修复策略（从黑名单到白名单），以及在删除共享函数时配套更新所有调用点和文档生成脚本的完整流程。这是处理相似路由问题的可参考样例。

bugfixv1attention

#42072 [ROCm] Restore fast top_k_per_row kernels for sparse MLA when topk_tokens=2048

原始 PR · 作者 frida-andersson · 合并时间 2026-05-16 03:02

性能优化重要性 6.10 洞察度 6.00

恢复稀疏MLA中topk_tokens=2048的快速C++内核路径

值得精读。这是一个典型的“性能回归修复 + 架构清理”组合 PR，展示了如何在不影响通用性的前提下为常见配置恢复专用加速路径。`_topk_indices_prefill`/`_topk_indices_decode` 的分发模式可复用。

rocmperformancev1

#35568 [Bugfix] Fix SM121 (DGX Spark) exclusion from Marlin/CUTLASS FP8 paths

原始 PR · 作者 blake-snc · 合并时间 2026-05-16 01:59

缺陷修复重要性 6.29 洞察度 4.00

修复SM121被排除在Marlin/CUTLASS FP8路径外

推荐阅读。该PR展示了如何通过有界家族匹配而非精确匹配来处理架构兼容性，是一种可复用的设计模式。同时解决了多个长期未关闭的issue，对Blackwell用户至关重要。

bugfixnvidiakernel

#42596 [LMCacheMPConnector] Prioritize importing the lmcache_mp_connector from lmcache

原始 PR · 作者 chunxiaozheng · 合并时间 2026-05-16 01:46

重构重要性 7.50 洞察度 6.00

优先从 lmcache 包导入 LMCacheMPConnector

值得精读，尤其是动态解析类实现和降级策略的设计模式。对于依赖 LMCache kv 传输的组件，建议关注后续 lmcache 包版本与 vLLM 的兼容性。

kv-connectordependency-wiringv1

#42409 [ROCm] Widen AITER fused AR RMSNorm 1-stage gate

原始 PR · 作者 akii96 · 合并时间 2026-05-16 01:44

重构重要性 5.38 洞察度 5.00

放宽 AITER 1-stage AR+RMS kernel 准入条件

推荐合并。PR 逻辑清晰、影响局部、收益明确，且经过维护者批准。无需深入精读，但可作为 ROCm 上 AITER 集成中与内核约束对齐的简洁示例。

rocmperformancev1

#42673 [Model Runner v2] Support reload weights (sleep mode)

原始 PR · 作者 yewentao256 · 合并时间 2026-05-16 00:41

功能重要性 6.08 洞察度 4.00

MR v2 支持权重重载（sleep mode）

建议在完成 v2 完全迁移后，移除此委托方法并直接内联实现。同时应补充单元测试覆盖 `reload_weights` 调用后的缓存重置行为。

v1refactorfeature

#41775 [Model Runner V2] FP32 gumbel sampling.

原始 PR · 作者 PatchouliTIS · 合并时间 2026-05-16 00:20

性能优化重要性 7.10 洞察度 6.00

Gumbel 采样默认使用 FP32 以提升性能

值得精读学习如何在 Triton 内核中安全切换 FP32/FP64 并处理边界值；以及从环境变量演化到引擎标志的设计决策过程，体现了代码的健壮性和可维护性。

performancev1kernel

第 73 / 269 页 · 共 2148 条

上一页 1 … 71 72 73 74 75 … 269 下一页