Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-30

#34676 [Frontend] Add VLLM_SKIP_MODEL_NAME_VALIDATION environment variable

原始 PR · 作者 dsingal0 · 合并时间 2026-04-30 14:19

功能重要性 5.93 洞察度 4.00

新增环境变量跳过模型名称验证

值得精读吗？简单变更，但展示了在 vLLM 中新增环境变量的标准模式（类型注解 + lambda 解析 + 函数引用 + compile factor 忽略）。设计决策值得关注：环境变量命名讨论（明确涵盖 model name 而非泛化的 model validation）、compile cache 考虑、以及未采纳的“允许空模型名”替代方案。

featurefrontenddocumentation

#41189 [Bugfix] Fix persistent_topk cooperative deadlock at TopK=1024

原始 PR · 作者 zyongye · 合并时间 2026-04-30 12:03

缺陷修复重要性 5.11 洞察度 6.00

修复 TopK=1024 时 persistent_topk 协作死锁

值得精读，尤其是 CUDA 协作栅栏死锁的调试思路（occupancy 查询、headroom、fallback）。代码注释清晰，适合作为 CUDA kernel 并发安全设计的参考。

bugfixkerneldeepseek

#40538 [Refactor][kv_offload] KV Offloading maintainability improvements

原始 PR · 作者 hickeyma · 合并时间 2026-04-30 10:55

重构重要性 9.18 洞察度 6.00

重构 KV Offloading，统一核心抽象到 base.py

该 PR 是模块重构的典型范例，值得精读以学习如何系统性地合并抽象、处理循环依赖和组织测试。重点关注 `base.py` 的抽象设计以及 `cpu/spec.py` 中延迟导入的解决方案。

refactorkv-connectorcleanup

#41282 [Bugfix] Fix failure to allocate KV blocks error

原始 PR · 作者 wzhao18 · 合并时间 2026-04-30 09:44

缺陷修复重要性 6.54 洞察度 5.00

修复 KV 块 admission cap 误用于逐 step 分配

值得精读，尤其关注 admission gate 与 per-step prediction 的差异设计；新增测试可作为类似回归的参考。

bugfixschedulerattention

#41201 [CI] Add key field to all test_areas pipeline steps

原始 PR · 作者 khluu · 合并时间 2026-04-30 07:59

基础设施重要性 4.39 洞察度 2.00

为所有 test_areas 管道步骤添加唯一 key 字段

该 PR 是纯粹的 CI 基础设施改进，变更机械但价值明确。推荐的阅读重点是：1）key 的派生规则（label→kebab-case）；2）对并行步骤 key 唯一性问题的讨论，可能需要在后续 PR 中修复。建议 CI 维护者跟进并行步骤的 key 索引问题。

ci/buildcleanup

#41165 [ROCm][Bugfix][GPTOSS]: fix input_ids and expert_map args for quark w4a8 gptoss

原始 PR · 作者 Rohan138 · 合并时间 2026-04-30 07:39

缺陷修复重要性 5.59 洞察度 3.00

修复 GPT-OSS 专家负载方法签名不匹配

建议合并。该 PR 修复了致命的启动崩溃，改动小而精确。值得关注的是 `expert_map` 参数改为从 `layer` 属性获取这一设计决策，减少了接口参数数量，提升了可维护性。

bugfixrocmgpt-oss

#41166 [Ci][BugFix] Fix slow DP tests due to bad teardown logic

原始 PR · 作者 njhill · 合并时间 2026-04-30 07:31

缺陷修复重要性 5.81 洞察度 4.00

修复 DP 测试因关机逻辑导致的延时问题

值得关注的设计点是“将单次阻塞操作拆解为并行阶段 + 统一等待”的模式，可复用于其他资源清理场景。同时建议后续跟进修复评论中提到的 baseline 选择小概率 bug。

bugfixci/buildtest

#41015 [DSv4] Use `cvt` PTX for FP32->FP4 conversion

原始 PR · 作者 gau-nernst · 合并时间 2026-04-30 07:16

性能优化重要性 6.80 洞察度 6.00

用 `cvt` PTX 指令替换 Triton 实现，优化 FP4 量化并修正舍入错误

值得精读。该 PR 展示了如何利用硬件 PTX 指令简化数值密集操作并提升正确性，同时配套了严格的 bit-exact 测试确保替换的正确性。对于其他量化算子的优化有参考价值。

performancedeepseekkernel

第 115 / 253 页 · 共 2019 条

上一页 1 … 113 114 115 116 117 … 253 下一页