Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-13

#41299 [MoE Refactor] Add sequence parallel tests to test_moe_layer.py

原始 PR · 作者 bnellnm · 合并时间 2026-05-13 09:52

测试重要性 7.25 洞察度 6.00

为 MoE 层添加序列并行测试并修复相关 bug

建议阅读以了解 MoE 层序列并行测试的设计模式（`sp_wrapper`、`is_sequence_parallel` 属性），以及 defensive programming 在分布式通信中的应用（`x_sf is not None` 判断、assert 增强）。该 PR 也体现了测试驱动修复的思路，值得学习。

testmoebugfix

#42364 [PD] Bump NIXL connector dependency to 1.x

原始 PR · 作者 alec-flowers · 合并时间 2026-05-13 09:05

基础设施重要性 2.93 洞察度 4.00

升级 NIXL 依赖到 1.1.0，简化依赖配置

建议合并。此 PR 是直接的依赖清理，利用了上游 NIXL 1.1.0 的改进，简化了配置并加固了 CI 流程。值得关注其 CI 运行结果以确认 NIXL 1.1.0 与现有环境的兼容性。

ci/buildkv-connectorcleanup

#42460 [Perf] Optimize MLA `compute_prefill_context` memory allocation

原始 PR · 作者 yewentao256 · 合并时间 2026-05-13 07:23

性能优化重要性 6.62 洞察度 5.00

优化 MLA 预填充内存分配，减少 94% 内存占用

值得精读：这是一个简单但高效的优化模式，可在其他类似的循环合并场景中复用。注意变量交换技巧和延迟初始化。

performanceattentiondeepseek

#40900 [KV Transfer] Add MooncakeStoreConnector for KV cache offloading via Mooncake distributed store

原始 PR · 作者 LCAIZJ · 合并时间 2026-05-13 07:09

功能重要性 9.18 洞察度 6.00

新增 MooncakeStoreConnector 实现跨实例 KV 缓存共享与卸载

建议本 PR 合并至主线，以便用户测试并提供反馈。重点关注 ZMQ 错误处理和 TP 分片缓存查找的修复，建议在后续迭代中统一 AttentionBackend 的布局检测接口以消除魔法检测。

featurekv-connectorv1

#42429 [Build] DeepGEMM: trim comments, add integration notes + TODOs

原始 PR · 作者 mgoin · 合并时间 2026-05-13 06:57

文档重要性 4.43 洞察度 3.00

精简 DeepGEMM 注释并添加集成说明

对于关注 DeepGEMM 集成的开发人员，可以阅读集成说明和 TODO 以了解未来架构演进方向；对于普通开发者无需特别关注。

ci/builddocumentationcleanup

#42357 [CI] Inline build artifact annotations in release pipeline

原始 PR · 作者 khluu · 合并时间 2026-05-13 06:57

重构重要性 4.33 洞察度 3.00

释放流水线注解内联化，提升实时可见性

该 PR 属于基础设施优化，不涉及核心业务逻辑，但可读性和架构清晰度有提升。建议采纳关于脚本失败容忍的建议，以避免潜在的生产问题。对于开发者和运维人员，值得了解新的注解机制，便于后续排查发布问题。

ci/buildcicleanup

#42455 [CI] Fix `test_async_scheduling.py` flakiness

原始 PR · 作者 njhill · 合并时间 2026-05-13 05:38

缺陷修复重要性 3.62 洞察度 3.00

修复异步调度测试因 rank 排序波动导致的 flakiness

可立即合并。但建议后续跟踪测试稳定性，若仍有 flakiness 可考虑使用绝对容差，并处理 `None` rank 情况。

bugfixtestv1

#41035 [Model Runner V2] Apply synthetic mode to probabilistic rejection sampler

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-05-13 04:37

功能重要性 8.62 洞察度 5.00

将合成拒绝采样融合到统一内核

该 PR 展示了如何将两个独立代码路径合并而不损失性能匹配。值得关注的设计决策：故意保留 LSE 计算以对齐运行时间。建议推测解码相关开发者精读内核分支。

speculative-decodingv1kernel

第 87 / 269 页 · 共 2150 条

上一页 1 … 85 86 87 88 89 … 269 下一页