Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 18:58 同步状态：空闲下次计划：2026-05-31 19:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#39293 [Bugfix][Model] Fix Devstral Small 2 HF format weight loading

原始 PR · 作者 thomasmaindron · 合并时间 2026-04-14 18:11

缺陷修复重要性 5.98 洞察度 4.00

修复 Devstral Small 2 HF 格式权重加载

值得合并。改动小（11 新增、7 删除），但有明确的用户价值（修复 HF 格式加载阻塞）。建议注意 `architectures` 覆盖的潜在问题，后期可考虑以默认值方式替代。

bugfixmodelmulti-modality

#39688 [fix][MOE] Fix MOE experts `intermediate_size` dimension not being narrowed before weight loading

原始 PR · 作者 fxmarty-amd · 合并时间 2026-04-14 17:35

缺陷修复重要性 5.00 洞察度 4.00

修复MOE专家权重加载中intermediate_size维度未正确裁剪导致的形状不匹配问题。

该PR值得精读，特别是_narrow_expert_data_for_padding方法的修改和review中关于API设计的讨论。关注点：1) 如何优雅地处理多维度裁剪；2) 默认值设计的最佳实践（避免使用有歧义的哨兵值）。

bugfixmoequantization

#39776 [XPU][CI] Remove Arc in label-xpu

原始 PR · 作者 zxd1997066 · 合并时间 2026-04-14 17:27

基础设施重要性 2.00 洞察度 3.00

移除Mergify配置中易误匹配的'Arc'标签规则，避免误标PR。

该PR变更简单，无需精读。值得关注的是review中提出的正则优化建议，虽未采纳，但展示了配置维护的最佳实践。对于涉及CI配置的工程师，可参考此讨论以优化类似标签规则。

#30156 feat: add TxtSlicesDataset to allow sampling slices from txt file for benchmarking

原始 PR · 作者 jdebache · 合并时间 2026-04-14 17:20

功能重要性 6.00 洞察度 6.00

新增TxtSlicesDataset数据集，允许从txt文件采样切片以改进基准测试的数据质量。

该PR值得精读，特别是设计决策：如何平衡数据真实性和可复现性，以及review中的讨论展示了团队对代码侵入性和可维护性的权衡。关注 `get_sampling_params` 函数的重构和 `RangeRatio` 类型的引入，这些通用性改进可应用于其他数据集类型；同时，学习妥协方案：将功能实现为外部脚本而非核心集成，以减少耦合。

featurefrontendperformance

#38061 [MM][Perf][CG] Support ViT full CUDA graph for Qwen3-VL video inference

原始 PR · 作者 shen-shanshan · 合并时间 2026-04-14 16:49

功能重要性 7.00 洞察度 6.00

扩展ViT全CUDA图支持到Qwen3-VL视频推理，提升多模态编码性能。

建议技术管理者和工程师精读此PR，以理解CUDA图在多模态编码中的扩展设计。重点关注`get_input_modality`方法实现、`max_frames_per_batch`参数处理，以及review中讨论的权衡决策（如缓存移除和命名更改），这些对类似性能优化和协议设计具有借鉴意义。同时，关注后续PR中混合输入支持的演进。

multi-modalityperformancecudagraph

#39763 [Frontend] Offload blocking preprocessing & postprocessing ops to thread pool for pooling entrypoints.

原始 PR · 作者 noooop · 合并时间 2026-04-14 16:29

重构重要性 6.00 洞察度 6.00

将 pooling 入口点的阻塞预处理和后处理卸载到线程池以减少延迟回归。

建议工程师精读此 PR，重点关注线程池如何集成到 serving 基类中，以及 make_async 的使用方式。设计决策值得学习，尤其是如何平衡同步和异步处理以优化性能，同时注意 review 中提到的 bug 修复点。

frontendrefactorperformance

#39753 [Model] Use mm_features for Ernie-4.5 VL M-RoPE

原始 PR · 作者 lalit10 · 合并时间 2026-04-14 16:11

重构重要性 8.16 洞察度 6.00

Ernie-4.5 VL模型的M-RoPE位置计算从基于token扫描重构为使用mm_features数据契约。

建议工程师精读此PR，关注如何通过`iter_mm_grid_thw`辅助方法将复杂token扫描逻辑抽象为清晰的数据迭代器，以及多模态数据契约（`mm_features`）在设计中的应用。对于涉及位置编码或模型重构的任务，这是一个值得借鉴的设计决策示例。

refactormodelmulti-modality

#37460 [Core][Metrics][BugFix] Replace num_cached_tokens/num_external_computed_tokens with PrefillStats

原始 PR · 作者 markmc · 合并时间 2026-04-14 16:00

缺陷修复重要性 6.00 洞察度 6.00

引入PrefillStats替换旧缓存令牌统计字段，修复调度器preemption下的metrics错误。

该PR值得精读，特别是调度器如何跟踪首次prefill stats的设计决策，以及review中关于metrics计算和错误处理的深度讨论，为类似场景提供了权衡案例。

bugfixkv-connectorrefactor

第 171 / 253 页 · 共 2020 条

上一页 1 … 169 170 171 172 173 … 253 下一页