Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 17:56 同步状态：空闲下次计划：2026-05-31 18:56

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-15

#39730 [ROCm][CI] Fix condition for `test_per_token_group_quant_fp8_packed`

原始 PR · 作者 micah-wil · 合并时间 2026-04-15 00:14

基础设施重要性 2.00 洞察度 3.00

修复ROCm平台下量化测试条件，确保DeepGEMM相关测试正确跳过。

该PR变更简单直接，无需深入精读。值得关注的是项目正逐步统一使用current_platform.is_cuda()替代torch.cuda.is_available()进行平台检测，这反映了对多平台支持基础设施的持续改进。

rocmciquantization

2026-04-14

#39793 Bugfix: `use_existing_torch.py`: Glob recursive subdirs in requirements (fixes #39024)

原始 PR · 作者 netanel-haber · 合并时间 2026-04-14 23:11

缺陷修复重要性 3.00 洞察度 2.00

修复use_existing_torch.py脚本无法递归处理嵌套requirements文件夹的问题。

该PR变更简单直接，适合快速浏览以了解requirements文件夹结构调整带来的影响。值得关注的是递归glob模式的使用方式，以及如何保持向后兼容性。

bugfix

#39240 Measure encoder compile time seperate from llm backbone

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-14 22:52

功能重要性 8.38 洞察度 5.00

将多模态编码器编译时间从主模型分离测量

建议审核者精读 `vllm/benchmarks/startup.py` 的数据驱动重构和 `vllm/v1/worker/worker_base.py` 中 `CompilationTimes` 的设计，这是跨层传递结构化数据的良好范例。对于多模态模型开发者，此 PR 提供了更精确的编译时间诊断能力，值得学习。

featureperformancemulti-modality

#33556 [PluggableLayer][3/N] Apply PluggableLayer to moe-related layers.

原始 PR · 作者 whx-sjtu · 合并时间 2026-04-14 21:55

重构重要性 5.00 洞察度 5.00

将MOE相关层的基类从CustomOp替换为PluggableLayer，推进架构标准化。

该PR作为架构演进的一部分，值得核心开发者关注其设计决策，特别是关于`FusedMoE`中`forward`方法显式化的处理，以及`FusedMoEModularMethod`类被暂时搁置的权衡。这为理解vLLM从CustomOp向PluggableLayer迁移的模式提供了具体案例。

moerefactormodel

#39107 [MoE Refactor] Remove MoE DP chunking

原始 PR · 作者 bnellnm · 合并时间 2026-04-14 21:48

重构重要性 9.00 洞察度 6.00

移除MoE DP chunking机制，简化运行器并统一到调度器配置。

该PR值得精读，特别是关注`ChunkingMoERunner`的移除如何简化MoE架构，以及默认值处理中的设计权衡。建议工程师检查外部集成点，确保`max_num_tokens`被正确设置，并学习配置统一的模式。

refactor

#39707 [Bugfix] Fix mismatch between global and local attention heads in tensor-parallel mode for param2moe model

原始 PR · 作者 bhargav-patel-29 · 合并时间 2026-04-14 20:13

缺陷修复重要性 5.00 洞察度 3.00

修复Param2Moe模型在张量并行下注意力头不匹配导致的错误计算。

建议工程师精读此PR以理解张量并行下注意力头处理的常见模式，并可参考类似模型实现。对于维护Param2Moe或类似架构的开发者，此修复至关重要。

bugfixmodelattention

#39473 fix: handle ImportError in load_audio

原始 PR · 作者 ianliuy · 合并时间 2026-04-14 19:09

缺陷修复重要性 4.00 洞察度 5.00

修复音频加载因缺失soundfile依赖而崩溃的问题，改进错误处理。

该PR值得快速浏览，重点关注其如何通过调整异常捕获顺序解决PlaceholderModule引发的隐蔽问题，以及团队对可选依赖管理的共识。对于处理类似可选依赖场景的开发者有借鉴价值。

bugfixmulti-modality

#38654 [Bugfix] Fix `vllm bench serve` to count multimodal tokens in "total input tokens"

原始 PR · 作者 mgehre-amd · 合并时间 2026-04-14 19:00

缺陷修复重要性 5.00 洞察度 4.00

修复多模态模型基准测试中总输入令牌计数不包含图像令牌的问题。

该PR值得精读，因为它揭示了基准测试工具在多模态场景下的一个常见陷阱：客户端与服务器令牌计数的不一致。关注点包括：1. 如何通过服务器返回的usage字段校正客户端计算。2. review中关于流式响应处理结构的讨论，虽然未在本PR解决，但值得注意。3. 修改的简洁性体现了bugfix的最佳实践：最小化变更，聚焦问题本身。

bugfixperformancemulti-modality

第 170 / 253 页 · 共 2020 条

上一页 1 … 168 169 170 171 172 … 253 下一页