Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 23:05 同步状态：空闲下次计划：2026-06-01 00:05

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#36092 [ROCm] Fix AITER ops fake impl and minor bugs

原始 PR · 作者 ChuanLi1101 · 合并时间 2026-04-10 08:56

缺陷修复重要性 4.00 洞察度 3.00

修复ROCm平台AITER算子fake实现返回None、静态方法参数错误和错误信息格式问题。

该PR值得ROCm平台开发者或关注AITER算子实现的工程师精读，尤其是fake实现的设计，展示了如何为自定义算子提供兼容torch.compile的元实现。关注点：fake实现如何模拟真实算子的输出张量形状和类型，这是支持torch.compile的关键模式。

rocmbugfixcompilation

#39169 fix(gdn): Align prefill warmup with real prefill path

原始 PR · 作者 ibrahim1023 · 合并时间 2026-04-10 08:49

缺陷修复重要性 6.00 洞察度 5.00

修复 GDN prefill 预热逻辑，使其与真实路径对齐以避免首次请求延迟。

值得精读以理解内核预热优化技巧和性能调试实践。关注点：1. 如何通过精确模拟真实路径来避免首次请求延迟；2. 设计权衡：预热路径对齐的精确性与未来通用方法的平衡；3. 从 review 讨论中学习 Triton 自动调优管理和性能问题诊断方法。

bugfixperformanceattention

#39422 [Model][Perf] Enable checkpoints prefetching for Lustre FS by default

原始 PR · 作者 arpera · 合并时间 2026-04-10 08:48

功能重要性 6.00 洞察度 5.00

为Lustre文件系统默认启用检查点预取，并改进相关日志记录。

该PR值得精读，特别是safetensors_weights_iterator函数中的预取决策逻辑，展示了如何平衡性能与内存安全。关注_get_fs_type函数的实现细节，了解文件系统检测的局限性。

modelperformancerefactor

#38856 [LMCache] vLLM Block Allocation Event

原始 PR · 作者 Oasis-Git · 合并时间 2026-04-10 08:30

功能重要性 5.00 洞察度 5.00

新增向LMCache报告vLLM块分配事件的功能，提升可观测性。

该PR值得精读，特别是对LMCache集成和可观测性机制感兴趣的开发者。关注 _report_block_allocation_deltas 方法中如何处理新请求和缓存请求的分配增量，以及review中讨论的设计权衡。

kv-connectorfeature

#39443 [CI/Build[ Don't auto-rebase PRs with CI failures

原始 PR · 作者 DarkLight1337 · 合并时间 2026-04-10 04:57

基础设施重要性 4.00 洞察度 3.00

更新Mergify自动更新规则，避免对CI失败的PR进行自动rebase以减轻CI压力。

该PR值得快速浏览，特别是对于负责CI/基础设施的工程师。它展示了如何通过简单配置调整优化CI资源使用，并提供了Mergify条件使用的实际示例。关注点包括：check-failure与status-failure的区别，以及团队在平衡自动化和成本时的决策。

#38610 [Spec Decode] fix returning size mismatch on extract hidden states proposer

原始 PR · 作者 zzaebok · 合并时间 2026-04-10 04:39

缺陷修复重要性 4.00 洞察度 3.00

修复speculative decoding提取隐藏状态提议器返回张量形状不匹配问题

该PR值得快速浏览以了解speculative decoding中形状处理的细节。虽然变更简单，但展示了在speculative decoding场景下处理多token输出的典型模式。关注点：为什么需要切片:1而不是其他处理方式？这反映了num_speculative_tokens=1的设计约束。

speculative-decodingbugfix

#38577 Add nightly b200 test for spec decode eagle correctness

原始 PR · 作者 puririshi98 · 合并时间 2026-04-10 04:09

测试重要性 4.00 洞察度 3.00

在B200设备上添加spec decode夜间正确性测试，提升CI覆盖。

对于关注CI测试配置或spec decode功能的工程师，此PR值得简要查看以了解夜间测试设置和设计权衡（如optional标志的使用和测试组织方式），但变更较简单，无需深度精读。

citestspeculative-decoding

#39116 [ASR] Fix spacing bw chunks in multi chunk audio transcription

原始 PR · 作者 ekagra-ranjan · 合并时间 2026-04-10 03:46

缺陷修复重要性 5.00 洞察度 6.00

修复ASR多块音频转录时块间缺少空格问题，提升Cohere和Qwen3模型输出质量。

建议工程师精读此PR，以理解ASR流式处理中分隔符的设计决策和协议扩展模式。重点关注`asr_inter_chunk_separator`函数的实现、流式生成器的参数传递逻辑，以及如何通过测试确保正确性，这对处理类似多块文本拼接问题有参考价值。

bugfixfrontendtest

第 184 / 253 页 · 共 2020 条

上一页 1 … 182 183 184 185 186 … 253 下一页