Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 09:39 同步状态：空闲下次计划：2026-05-31 10:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-21

#39502 feat(multimodal): support externally processed mm_kwargs with cache injection

原始 PR · 作者 krishung5 · 合并时间 2026-04-21 19:31

功能重要性 7.48 洞察度 6.00

新增外部预处理多模态kwargs缓存注入功能，准确报告MM缓存命中率指标。

此PR值得精读，特别是`inject_into_mm_cache`方法的实现，展示了如何处理外部预处理输入与缓存系统的集成。关注review讨论中的设计权衡（如公共API vs 标志、metric一致性修复），这对理解多模态缓存机制和外部集成有参考价值。

featuremulti-modalitytest

#39391 fix: clamp NaN/Inf in topk_softmax to prevent duplicate expert IDs

原始 PR · 作者 jhaotingc · 合并时间 2026-04-21 19:04

缺陷修复重要性 5.60 洞察度 5.00

修复MoE topk_softmax中NaN/Inf处理，防止CUDA图下生成重复专家ID导致的非法内存访问。

建议精读此PR，了解如何处理数值异常情况，以及对MoE路由和CUDA图集成的设计权衡。

bugfixmoetest

#40438 Revert "[Startup] Parallelize torch/transformers import + weight prefetch + forkserver prewarm"

原始 PR · 作者 noooop · 合并时间 2026-04-21 16:47

缺陷修复重要性 8.21 洞察度 5.00

撤销并行化启动优化，修复transformers导入竞争条件错误。

建议技术管理者和工程师精读此PR，以理解启动优化与可靠性之间的权衡决策。关注点： 1. **导入竞争条件的设计教训**：背景线程导入模块时可能因Python导入锁或模块状态初始化导致种族条件，此案例展示了优化带来的意外副作用。 2. **撤销优化的快速响应**：基于测试失败证据直接回滚而非尝试修补，体现了优先稳定性的决策模式。 3. **配置一致性检查的重要性**：review中指出的不一致问题揭示了跨文件变更时需同步配置与逻辑，避免技术债务积累。

bugfixfrontend

#40339 [Bugfix] Normalize malformed dict prompts that carry token IDs in `prompt`

原始 PR · 作者 Alchuang22-dev · 合并时间 2026-04-21 15:44

缺陷修复重要性 6.81 洞察度 5.00

修复渲染器路径中格式错误的字典提示处理，避免 tokenizer 内部异常。

该 PR 值得精读，尤其是预处理边界验证的设计决策，展示了如何在早期阶段捕获非法输入以避免深层错误，同时强调了代码鲁棒性和错误处理的重要性。

bugfix

#39703 [Feat] dflash support for ROCm

原始 PR · 作者 hangy-amd · 合并时间 2026-04-21 14:58

功能重要性 7.18 洞察度 5.00

为ROCm平台添加dflash支持，通过集成AITER的flash_attn_with_kvcache实现非因果注意力。

该PR值得精读，特别是关注非因果注意力在ROCm后端的实现方式，以及如何通过`causal`标志灵活切换内核。设计决策中集成`flash_attn_with_kvcache`而非硬编码修改，展示了平台特定优化策略，对理解vLLM注意力后端扩展有参考价值。

rocmfeaturespeculative-decoding

#39016 [MoE] Triton MoE Perf regression - restore low latency path

原始 PR · 作者 milesial · 合并时间 2026-04-21 14:37

缺陷修复重要性 7.77 洞察度 6.00

修复Triton MoE因重构丢失的低延迟优化路径，恢复约3-4%性能提升。

建议工程师精读`_prepare_expert_assignment`函数，了解低延迟路径的条件设计和提取辅助函数以消除重复逻辑的模式。关注MoE内核的快速路径机制。

moebugfixperformance

#40335 [MM][Misc] Support image+video mixed inputs (per prompt) for VLM examples

原始 PR · 作者 shen-shanshan · 合并时间 2026-04-21 11:43

功能重要性 8.06 洞察度 4.00

为 VLM 离线推理示例添加图像+视频混合输入支持。

该 PR 对于想了解 vLLM 多模态集成或测试混合输入场景的开发者值得浏览，重点关注占位符拼接和 limit_mm_per_prompt 的动态配置设计，但核心逻辑较为直白，无需深度分析。

featuremulti-modalitydocumentation

#40359 [Fix] Add missing space in IP fallback warning

原始 PR · 作者 lesj0610 · 合并时间 2026-04-21 11:26

缺陷修复重要性 3.91 洞察度 1.00

修复网络工具中IP回退警告消息的缺失空格。

该PR是一个简单的格式修复，不值得深入技术分析。对于工程师来说，可以快速浏览确认变更正确性，但无需投入时间研究设计决策或实现细节。

bugfixcleanup

第 146 / 253 页 · 共 2019 条

上一页 1 … 144 145 146 147 148 … 253 下一页