Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#44170 [Frontend] Consolidate dev entrypoints.

原始 PR · 作者 noooop · 合并时间 2026-06-02 21:30

重构重要性 7.25 洞察度 4.00

将开发模式入口点统一移至 dev/ 目录

该 PR 是良好的代码组织重构示例，值得阅读以理解如何通过分离职责来模块化入口点。建议在代码审查中关注 `register_vllm_dev_api_routers` 的设计以及文件移动后的导入更新，确保没有遗留的硬编码路径。

frontendrefactordocumentation

#42971 Fix DFlash prefix cache corruption due to missing lookahead block

原始 PR · 作者 shreyas269 · 合并时间 2026-06-02 20:06

缺陷修复重要性 7.73 洞察度 5.00

修复DFlash前缀缓存因缺lookahead块的损坏

建议精读此PR及关联PR #43733，理解DFlash与EAGLE在KV写入时序上的根本差异，以及为何需要调整lookahead分配策略。设计上将条件抽取为独立方法并区分bonus token的做法值得借鉴。对于维护者，建议在合并后运行DFlash的端到端测试（如`test_dflash.py`）验证无回归。

bugfixv1speculative-decoding

#43421 [XPU][Mamba] Triton-based selective scan forward op for XPU

原始 PR · 作者 mfylcek · 合并时间 2026-06-02 18:50

功能重要性 7.67 洞察度 5.00

为 XPU 添加 Triton 实现的 Mamba selective scan 前向操作

**值得精读**：对 Triton kernel 的开发者和硬件移植团队有参考价值，展示了如何将 CUDA 自定义算子移植到 Triton 并在新硬件上运行。**设计决策关注点**：选择 Triton 而非原生 SYCL 或 Level Zero，降低了开发成本但牺牲了部分性能；并行化策略的取舍（访存 vs 计算）是典型 trade-off，读者可对比仓库中其他 Triton kernel（如 `fused_moe`）的维度安排。**后续跟进**：建议作者或社区优先优化访存模式（如交换 dim/seqlen 的并行维度），并补充 Triton kernel 的单元测试。

intel-gpukernelfeature

#44206 [KV Offload] Add `on_schedule_end()` hook to separate step lifecycle from event draining

原始 PR · 作者 ronensc · 合并时间 2026-06-02 18:42

重构重要性 7.13 洞察度 5.00

为 KV offload 添加 on_schedule_end() 钩子

建议精读，尤其是理解生命周期分离的设计模式。该 PR 展示了如何通过添加明确的生命周期钩子来改善模块内部职责划分，值得在类似场景中参考。

refactorv1kv-connector

#43754 [HARDWARE][POWER] Enable SHM communicator support for PowerPC

原始 PR · 作者 Rukhaiya2004 · 合并时间 2026-06-02 18:06

功能重要性 6.73 洞察度 5.00

为 PowerPC 启用 SHM 通信器支持

值得关注的设计决策： - 采用条件宏而非抽象接口扩展平台支持，保持了最小改动量，适合成熟模块的横向移植。 - 通过新增 `FP16Vec16` 类型而非修改原有类型转换逻辑，避免了影响 x86/ARM 的代码路径。 - 自旋等待指令的低级优化体现了对微架构特性的深入理解，可作为跨平台 busy-wait 模式的参考。建议后续为 PowerPC 添加 CI 运行或至少补充集成测试，以确保长期兼容性。

cpuinfrafeature

#44126 [Multimodal] Automatically select registered video loader for VLM

原始 PR · 作者 Isotr0py · 合并时间 2026-06-02 17:09

功能重要性 8.22 洞察度 5.00

自动根据模型 VideoProcessor 选择视频加载后端

值得精读，了解多模态基础设施中的注册与自动发现模式。设计上保持了向后兼容（未指定 `video_processor` 时行为不变），是渐进式改进的范例。

featuremulti-modalityfrontend

#42977 [Parser] Migrate `ResponsesParser` to unified `Parser` interface

原始 PR · 作者 albertoperdomo2 · 合并时间 2026-06-02 16:50

重构重要性 7.91 洞察度 6.00

迁移 ResponsesParser 到统一 Parser 接口

该 PR 值得精读，展示了将遗留组件迁移到统一接口的典型模式。重点关注 `ResponsesParser.process()` 的简化和流式处理的缓存设计（未来改进方向）。建议合并后尽快跟进流式问题的 CI 测试。

refactorfrontendparser

#41627 [EC Connector] Non blocking EC Connector lookup

原始 PR · 作者 omerpaz95 · 合并时间 2026-06-02 16:48

功能重要性 7.12 洞察度 6.00

为EC连接器引入非阻塞查询机制，允许调度器延迟等待多模态编码缓存预取的请求。

建议精读该PR的核心设计：`ensure_cache_available` 接口定义与调度器集成点，特别是如何通过非阻塞延迟提升吞吐。对于连接器实现者，应关注后续PR #42998 以了解完整用法。代码质量和测试覆盖良好，值得 merge。

kv-connectorschedulerv1

第 11 / 269 页 · 共 2148 条

上一页 1 … 9 10 11 12 13 … 269 下一页