Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-13

#42411 [ROCm] Run AITER RMSNorm pad fusion before AR RMS fusion

原始 PR · 作者 akii96 · 合并时间 2026-05-13 18:35

性能优化重要性 5.64 洞察度 6.00

Reorder ROCm pad fusion before AR+RMS fusion

值得合入。该 PR 精准修复了 ROCm AITER 融合管道中的调度竞争问题，通过极小的代码改动（+5/-3）获得显著性能提升，且经过充分验证。适合作为编译 pass 优先级设计的参考案例。

rocmperformancecompilation

#42329 [Bugfix][Frontend] Default max_tokens server-side on /inference/v1/generate

原始 PR · 作者 hallerite · 合并时间 2026-05-13 17:16

缺陷修复重要性 7.75 洞察度 6.00

为 /inference/v1/generate 添加服务端 max_tokens 默认值，防止静默截断。

此 PR 值得精读，尤其是 pydantic 模型验证器追踪客户端字段的技巧，该模式可用于其他需要区分“未设置”与“显式默认值”的场景（如 `temperature`、`top_p` 等）。其实现与测试设计清晰，有助于理解 vLLM 请求处理管线的不同层。

bugfixfrontendv1

#42470 [CI] Use uv with Python 3.12 for PyPI wheel upload

原始 PR · 作者 khluu · 合并时间 2026-05-13 17:12

基础设施重要性 3.64 洞察度 3.00

修复 PyPI 发布脚本使用 uv + Python 3.12

值得精读。该 PR 展示了 CI/CD 脚本中 Python 版本兼容性的处理策略，以及如何利用 uv 工具简化依赖管理并提升确定性。固定版本的做法值得在其它 CI 脚本中推广。

ci/buildcicleanup

#39654 [Feat][KVConnector] Add `bind_gpu_block_pool()` to KVConnectorBase_V1

原始 PR · 作者 ivanium · 合并时间 2026-05-13 17:10

功能重要性 6.64 洞察度 5.00

将 bind_gpu_block_pool 提升为 KVConnectorBase_V1 通用 API

本 PR 虽改动量小，但涉及 API 设计权衡（直接暴露完整池 vs. 提供窄接口），值得所有参与连接器开发的工程师精读，以理解当前接口约束和未来演进方向。

featurekv-connectorv1

#42438 [Bugfix] Install nvidia-cutlass-dsl[cu13] extra on CUDA 13 platforms

原始 PR · 作者 ZJY0516 · 合并时间 2026-05-13 16:57

缺陷修复重要性 5.36 洞察度 5.00

修复 CUDA 13 平台 nvidia-cutlass-dsl [cu13] 依赖缺失

值得关注其设计思路：让最新平台的需求作为默认值，通过向后兼容的方式处理旧平台，这是一种更可扩展的依赖管理策略。

bugfixci/buildnvidia

#41289 [Bugfix][SimpleCPUOffloadBackend] Dedup in-flight CPU offload stores across scheduler steps

原始 PR · 作者 ivanium · 合并时间 2026-05-13 16:53

缺陷修复重要性 6.69 洞察度 5.00

修复 SimpleCPUOffloadScheduler eager 模式下跨 steps 重复 offload 的问题

建议合入。这是一个精确的 bugfix，修复了竞态条件导致的重复 offload 问题，代码改动量小，设计清晰，且有完善的测试和 CI 集成。

bugfixv1scheduler

#42464 Patch SlidingWindowSpec.real_page_size_bytes for nvfp4 kv

原始 PR · 作者 sychen52 · 合并时间 2026-05-13 16:46

缺陷修复重要性 5.59 洞察度 4.00

修复 SlidingWindowSpec NVFP4 KV 缓存页大小计算

建议合并。该 PR 修复了明确的 Bug，改动集中且正确。建议关注后续是否需要对 FP8 量化做类似修复。

bugfixquantizationv1

#42151 [MM][Perf][CG] Support ViT full CUDA graph for Qwen3.5

原始 PR · 作者 shen-shanshan · 合并时间 2026-05-13 16:00

功能重要性 7.18 洞察度 3.00

为 Qwen3.5 启用 ViT 全 CUDA 图

建议合并。该 PR 遵循了已建立的 ViT CUDA 图扩展模式，代码清晰，测试覆盖完善，审阅人批准。值得关注的设计决策：通过复用 Qwen3-VL 的视觉变换器，展示了 vLLM 中多模态模型 CUDA 图支持的模块化扩展方法。

featuremulti-modalityqwen

第 86 / 270 页 · 共 2154 条

上一页 1 … 84 85 86 87 88 … 270 下一页