Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 04:17 同步状态：空闲下次计划：2026-06-01 05:17

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-26

#38050 [MoE Kernel] Flashinfer nvfp4 cutedsl moe kernel integration

原始 PR · 作者 zyongye · 合并时间 2026-03-26 01:16

功能重要性 7.00 洞察度 6.00

集成FlashInfer CuteDSL MoE kernel，支持nvfp4量化和batched activation格式。

建议工程师精读`flashinfer_cutedsl_batched_moe.py`以理解batched MoE实现和review中提到的bug设计；技术管理者应关注CI兼容性风险和版本依赖管理，确保新kernel在目标环境可用。

featurequantizationperformance

#36058 [2/n] Migrate per_token_group_quant to torch stable ABI

原始 PR · 作者 mikaylagawarecki · 合并时间 2026-03-26 01:15

重构重要性 6.00 洞察度 5.00

迁移per_token_group_quant量化内核至PyTorch稳定ABI，更新构建配置和API调用。

面向技术管理者和工程师：此PR值得精读以了解稳定ABI迁移策略和设计权衡。重点关注：1. csrc/libtorch_stable/dispatch_utils.h中的调度宏设计，学习如何适配稳定ABI的调度机制。2. review中讨论的安全漏洞，尽管未在本PR修复，但需在后续工作中评估风险。3. 构建配置变更（CMakeLists.txt）对多平台支持的影响。建议工程师在类似迁移任务中参考此实现模式。

refactorquantization

#38057 [CI/Docs] Improve aarch64/DGX Spark support for dev setup

原始 PR · 作者 bbrowning · 合并时间 2026-03-26 00:24

文档重要性 4.00 洞察度 5.00

改进 aarch64/DGX Spark 平台开发环境支持，更新文档和依赖条件。

对于在 aarch64 或跨平台环境工作的开发者，此 PR 值得快速浏览以了解正确设置方法。关注 `--torch-backend=auto` 参数的使用和平台依赖条件的设计，这些决策体现了对多架构支持的重视，可作为类似文档更新的参考。

documentationci

#38046 [compile] Add some more startup tests for top models

原始 PR · 作者 zou3519 · 合并时间 2026-03-26 00:02

测试重要性 5.00 洞察度 4.00

添加针对顶级模型的 torch.compile 启动时间测试，扩展 H100 设备上的测试覆盖。

对于关注编译性能或测试基础设施的开发者，建议精读 `tests/compile/h100/test_startup.py` 以了解参数化测试设计和计数器检查逻辑。关注测试中使用的 `CompilationConfig` 和 `compilation_counter`，这些是验证 vLLM-compile 集成正确性的关键。同时，留意 issue #38051 的后续进展。

testtorch.compileperformance

2026-03-25

#38048 [Refactor] Rename `WAITING_FOR_FSM` to `WAITING_FOR_STRUCTURED_OUTPUT_GRAMMAR`

原始 PR · 作者 yewentao256 · 合并时间 2026-03-25 23:41

重构重要性 4.00 洞察度 3.00

重构：将 WAITING_FOR_FSM 重命名为 WAITING_FOR_STRUCTURED_OUTPUT_GRAMMAR，提高代码清晰度。

该 PR 变更简单直接，建议开发者快速浏览以了解 structured-output 模块中状态命名的演进，无需精读；关注点在于代码风格一致性的实践。

structured-outputrefactorscheduler

#37970 [Kernel] Optimize SM120 CUTLASS blockwise FP8 GEMM

原始 PR · 作者 Nekofish-L · 合并时间 2026-03-25 23:20

性能优化重要性 6.00 洞察度 5.00

优化SM120 GPU上FP8 GEMM分块调度，提升解码性能。

建议工程师精读此PR，特别是对CUDA kernel优化、CUTLASS调度和量化性能提升感兴趣的开发者。关注基于问题大小动态分派kernel的设计决策，以及性能测试的方法和结果。

performancequantizationfp8

#37725 [Bugfix] Preserve CUDA arch suffix (a/f) for SM12x — fixes NVFP4 NaN on desktop Blackwell

原始 PR · 作者 RobTand · 合并时间 2026-03-25 23:18

缺陷修复重要性 6.00 洞察度 5.00

修复CMake构建中丢失CUDA架构后缀的bug，避免SM12x设备上NVFP4推理产生NaN。

此PR值得精读，特别是对于负责构建系统和CUDA编译优化的工程师。关注点包括：正则表达式的修改如何保留后缀、架构检测的逻辑演变，以及从后续问题中学到的跨文件协调教训。建议结合PR 38126一起阅读，以理解完整的修复链条，并关注构建系统在其他PR中的演进。

bugfix

#37488 [Feature] EPLB Support for GPU Model Runner v2

原始 PR · 作者 yewentao256 · 合并时间 2026-03-25 23:16

功能重要性 6.00 洞察度 6.00

为 GPU Model Runner v2 添加专家并行负载均衡（EPLB）支持。

该 PR 值得精读，重点关注设计决策如从继承改为组合模式、以及装饰器的使用，这些体现了良好的软件工程实践。同时，需留意 review 中讨论的崩溃风险，可能需要在未来版本中进一步优化。

featurerefactortest

第 236 / 253 页 · 共 2021 条

上一页 1 … 234 235 236 237 238 … 253 下一页