Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 09:45 同步状态:空闲 下次计划:2026-06-04 10:45

PR 列表

更多筛选
2026-05-13
测试 重要性 7.25 洞察度 6.00

为 MoE 层添加序列并行测试并修复相关 bug

建议阅读以了解 MoE 层序列并行测试的设计模式(`sp_wrapper`、`is_sequence_parallel` 属性),以及 defensive programming 在分布式通信中的应用(`x_sf is not None` 判断、assert 增强)。该 PR 也体现了测试驱动修复的思路,值得学习。

#42364 [PD] Bump NIXL connector dependency to 1.x

原始 PR · 作者 alec-flowers · 合并时间 2026-05-13 09:05

基础设施 重要性 2.93 洞察度 4.00

升级 NIXL 依赖到 1.1.0,简化依赖配置

建议合并。此 PR 是直接的依赖清理,利用了上游 NIXL 1.1.0 的改进,简化了配置并加固了 CI 流程。值得关注其 CI 运行结果以确认 NIXL 1.1.0 与现有环境的兼容性。

功能 重要性 9.18 洞察度 6.00

新增 MooncakeStoreConnector 实现跨实例 KV 缓存共享与卸载

建议本 PR 合并至主线,以便用户测试并提供反馈。重点关注 ZMQ 错误处理和 TP 分片缓存查找的修复,建议在后续迭代中统一 AttentionBackend 的布局检测接口以消除魔法检测。

文档 重要性 4.43 洞察度 3.00

精简 DeepGEMM 注释并添加集成说明

对于关注 DeepGEMM 集成的开发人员,可以阅读集成说明和 TODO 以了解未来架构演进方向;对于普通开发者无需特别关注。

重构 重要性 4.33 洞察度 3.00

释放流水线注解内联化,提升实时可见性

该 PR 属于基础设施优化,不涉及核心业务逻辑,但可读性和架构清晰度有提升。建议采纳关于脚本失败容忍的建议,以避免潜在的生产问题。对于开发者和运维人员,值得了解新的注解机制,便于后续排查发布问题。

#42455 [CI] Fix `test_async_scheduling.py` flakiness

原始 PR · 作者 njhill · 合并时间 2026-05-13 05:38

缺陷修复 重要性 3.62 洞察度 3.00

修复异步调度测试因 rank 排序波动导致的 flakiness

可立即合并。但建议后续跟踪测试稳定性,若仍有 flakiness 可考虑使用绝对容差,并处理 `None` rank 情况。

参与讨论