Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-16
功能 重要性 6.21 洞察度 4.00

添加 HumanEval 和 GSM8K 基准测试数据集

对于需要扩展基准数据集的开发者,这是一个良好的参考实例,展示了如何遵循现有模式添加 HuggingFace 数据集。

缺陷修复 重要性 7.12 洞察度 5.00

修复 FlashAttn 错误接受未处理 FP8 缓存类型

建议阅读 supports_kv_cache_dtype 的修复策略(从黑名单到白名单),以及在删除共享函数时配套更新所有调用点和文档生成脚本的完整流程。这是处理相似路由问题的可参考样例。

性能优化 重要性 6.10 洞察度 6.00

恢复稀疏MLA中topk_tokens=2048的快速C++内核路径

值得精读。这是一个典型的“性能回归修复 + 架构清理”组合 PR,展示了如何在不影响通用性的前提下为常见配置恢复专用加速路径。`_topk_indices_prefill`/`_topk_indices_decode` 的分发模式可复用。

缺陷修复 重要性 6.29 洞察度 4.00

修复SM121被排除在Marlin/CUTLASS FP8路径外

推荐阅读。该PR展示了如何通过有界家族匹配而非精确匹配来处理架构兼容性,是一种可复用的设计模式。同时解决了多个长期未关闭的issue,对Blackwell用户至关重要。

#42409 [ROCm] Widen AITER fused AR RMSNorm 1-stage gate

原始 PR · 作者 akii96 · 合并时间 2026-05-16 01:44

重构 重要性 5.38 洞察度 5.00

放宽 AITER 1-stage AR+RMS kernel 准入条件

推荐合并。PR 逻辑清晰、影响局部、收益明确,且经过维护者批准。无需深入精读,但可作为 ROCm 上 AITER 集成中与内核约束对齐的简洁示例。

功能 重要性 6.08 洞察度 4.00

MR v2 支持权重重载(sleep mode)

建议在完成 v2 完全迁移后,移除此委托方法并直接内联实现。同时应补充单元测试覆盖 `reload_weights` 调用后的缓存重置行为。

#41775 [Model Runner V2] FP32 gumbel sampling.

原始 PR · 作者 PatchouliTIS · 合并时间 2026-05-16 00:20

性能优化 重要性 7.10 洞察度 6.00

Gumbel 采样默认使用 FP32 以提升性能

值得精读学习如何在 Triton 内核中安全切换 FP32/FP64 并处理边界值;以及从环境变量演化到引擎标志的设计决策过程,体现了代码的健壮性和可维护性。

参与讨论