Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-12

#42145 [docs] Added one new contact to the Vulnerability Management team

原始 PR · 作者 jperezdealgaba · 合并时间 2026-05-12 23:00

文档重要性 1.20 洞察度 1.00

漏洞管理文档新增联系人

可直接合并，无需深度审阅。该 PR 是纯文档维护，值得关注的是团队协作流程——成员变动需其他成员批准。

documentation

#39558 [vLLM IR] Minor improvements (#39362)

原始 PR · 作者 GOavi101 · 合并时间 2026-05-12 22:58

功能重要性 7.92 洞察度 7.00

增强 IR ops 命名验证、堆栈跟踪与测试隔离

该 PR 的设计决策值得精读，尤其是： - 使用 monkeypatch + 随机库名实现 PyTorch custom op 完全隔离的模式，可推广至其他需要注册 PyTorch ops 的测试场景。 - 装饰器堆栈切片技术，精准获取用户注册位置的堆栈。 - `__str__` 基于 docstring 退化的约定，平衡可读性和实现复杂度。对于计划扩展 vLLM IR 或从事类似注册式基础设施开发的工程师，该 PR 提供了有价值的参考。

refactortestcleanup

#41826 Added peagle speculators support

原始 PR · 作者 shanjiaz · 合并时间 2026-05-12 22:55

功能重要性 8.08 洞察度 6.00

支持 PEagle 投机解码，复用 Eagle3 并行架构

值得精读。本 PR 是 vLLM 投机器扩展的典型范例，展示了如何通过配置映射和注册表条目以最小改动支持新模型。核心设计决策（默认值对齐、方法映射策略）值得后续投机器集成时参考。测试参数化重构也提高了可维护性。

featurespeculative-decodingmodel

#41254 [Model] Support MiniCPM-V 4.6

原始 PR · 作者 tc-mb · 合并时间 2026-05-12 22:28

功能重要性 8.75 洞察度 5.00

支持 MiniCPM-V 4.6 多模态模型

值得精读，尤其是如何将新模型集成到 vLLM 多模态框架中的模式：利用共享基类加版本分支、处理器适配、注册体系。对于多模态模型贡献者，可以借鉴 `MiniCPMV4_6MultiModalProcessor` 中 `process_images`/`process_videos` 的 NaViT 输入重排和 prompt 生成逻辑。

featuremodelmulti-modality

#41516 [Build] Build bundled DeepGEMM `_C` per-Python so the wheel imports on every CPython

原始 PR · 作者 mgoin · 合并时间 2026-05-12 22:27

缺陷修复重要性 7.75 洞察度 5.00

按 Python 版本构建 DeepGEMM _C 扩展并打包进 wheel，支持多 Python 导入

该 PR 解决了关键的跨 Python 兼容性问题，并建立了可维护的构建体系。值得合入 v0.21 版本。建议后续关注 CMake 头文件依赖扫描的改进，并考虑推动上游或使用 nanobind 简化构建。

bugfixci/buildcompilation

#42153 [Perf] Use 2D-grid to eliminate divmod in W8W8 group quant

原始 PR · 作者 jiahanc · 合并时间 2026-05-12 22:01

性能优化重要性 5.28 洞察度 6.00

用 2D 网格消除 W8A8 分组量化中的 divmod 计算

值得精读：展示了 CUDA 内核优化中利用网格和模板常量消除运行时除法的典型手法。对理解 GPU 性能优化有参考价值，尤其是 2D grid 的应用和编译时常量的使用。

performancekernelquantization

#42097 [Bugfix] Fix mismatched kernel-per-logical blocks in NIXL HMA transfer

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-05-12 21:53

缺陷修复重要性 7.56 洞察度 6.00

修复异构TP下NIXL HMA传输中kernel块映射不匹配的bug

建议精读。该PR展示了在复杂分布式缓存传输中处理异构块大小和前缀缓存约束的典型设计模式，`_apply_prefix_caching` 的方法抽取和 handshake 防御性检查值得借鉴。测试用例的扩展方式也值得参考。

bugfixv1kv-connector

#42334 [MoE Refactor] Move remaining experts classes to experts directory

原始 PR · 作者 bnellnm · 合并时间 2026-05-12 21:19

重构重要性 6.06 洞察度 3.00

将剩余 MoE experts 类迁移至 experts 子目录

该 PR 属于代码组织优化，无功能变化，值得快速合并。建议后续类似重构保持原子 commit，便于回溯。

refactorcleanupmodel

第 89 / 269 页 · 共 2148 条

上一页 1 … 87 88 89 90 91 … 269 下一页