Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-11

#36127 [Model] Add support for moonshotai/Kimi-Audio-7B-Instruct

原始 PR · 作者 tunglinwood · 合并时间 2026-03-11 12:24

功能重要性 7.00 洞察度 6.00

新增 Kimi-Audio 语音转文本模型支持，集成 Whisper 编码器与 Qwen2 解码器。

该 PR 值得精读，特别是模型融合逻辑（如 `embed_input_ids` 方法中的音频-文本嵌入处理）和自定义 tokenizer 设计，这些展示了在多模态模型中处理非标准组件的技术权衡。建议关注 review 讨论中的设计决策，如 renderer 适配和处理器简化，以借鉴于类似项目。

featuremodelmulti-modality

2026-03-10

#36169 feat(grpc): extract gRPC servicer into smg-grpc-servicer package, add --grpc flag to vllm serve

原始 PR · 作者 CatherineSue · 合并时间 2026-03-10 18:29

功能重要性 7.00 洞察度 6.00

将gRPC servicer提取到外部包，新增--grpc标志启用gRPC服务器。

建议工程师精读此PR，以了解如何通过模块化设计分离核心功能与外部服务，关注依赖管理的调整和懒导入的实现。

featurefrontend

2026-03-09

#35777 [Kernel] Add fused_sigmoid_gating_delta_rule_update kernel for Qwen3 Next

原始 PR · 作者 xyang16 · 合并时间 2026-03-09 14:41

功能重要性 6.00 洞察度 6.00

为Qwen3 Next添加融合sigmoid gating delta rule更新kernel，减少内存流量和启动开销。

该PR值得精读，重点关注融合kernel的设计决策（如支持spec解码、数据类型处理）和性能优化策略（如用rsqrt替换sqrt）。工程师可学习Triton kernel融合技巧，管理者可评估性能改进对生产部署的价值。

performancefeatureqwen

2026-03-08

#35931 [Bugfix][LMCache][KVConnector] fix potential memory leak in LMCache multiprocess mode

原始 PR · 作者 royyhuang · 合并时间 2026-03-08 05:52

缺陷修复重要性 6.00 洞察度 5.00

修复 LMCache 多进程模式下因未释放查找锁导致的内存泄漏问题。

建议团队阅读此 PR 以理解 LMCache 锁管理机制和并发处理。变更虽直接，但涉及关键内存安全，值得在类似上下文中参考。注意 maobaolong 提出的未解决问题，可能需要后续调查。

bugfixkv-connectorperformance

#35891 [Perf] Support FP8 KV cache for Flashinfer MLA Sparse

原始 PR · 作者 wzhao18 · 合并时间 2026-03-08 05:51

功能重要性 6.00 洞察度 6.00

为Flashinfer MLA Sparse attention backend添加FP8 KV缓存支持，实现约14%吞吐提升。

建议技术管理者和工程师精读此PR，特别是关注mla_attention.py中的dtype转换逻辑和flashinfer_mla_sparse.py的backend扩展，以理解fp8 kv cache的设计权衡和性能优化策略。

featureperformancefp8

#29184 [Core] NGram GPU Implementation compatible with Async Scheduler

原始 PR · 作者 PatchouliTIS · 合并时间 2026-03-08 05:51

功能重要性 7.00 洞察度 6.00

实现GPU加速的ngram推测解码，并与异步调度兼容，提升推理性能。

该PR值得精读，重点关注GPU kernel的设计（如torch.compile优化和向量化操作）、async scheduling集成中的性能权衡（如内存与速度平衡），以及review中讨论的代码重构决策（如逻辑迁移以减少核心文件影响）。

speculative-decodingperformancetorch.compile

2026-03-05

#35472 [torch.compile] Stop lazily compiling

原始 PR · 作者 zou3519 · 合并时间 2026-03-05 04:13

重构重要性 6.00 洞察度 7.00

将 Inductor 编译从懒编译改为提前编译，修复编译时间测量问题并简化编译流程。

建议技术管理者和工程师精读此 PR，特别关注 `VllmBackend.__call__` 和 `piecewise_backend.py` 中的设计决策，如提前编译的实现、内存分配处理以及日志时间测量的权衡，这些对于优化编译流程有重要借鉴价值。

refactorperformancetest

2026-03-04

#35727 [model] support FireRedASR2

原始 PR · 作者 AllenDou · 合并时间 2026-03-04 11:41

功能重要性 6.00 洞察度 6.00

添加 FireRedASR2 语音识别模型支持，扩展 vLLM 多模态功能。

该 PR 值得精读，尤其关注模型如何继承 Qwen2 架构并集成多模态接口（如 SupportsMultiModal 和 SupportsTranscription），以及 review 中讨论的设备无关性和批处理修复，可学习多模态模型在 vLLM 中的实现模式。

modelfeaturedocumentation

第 252 / 253 页 · 共 2018 条

上一页 1 … 249 250 251 252 253 下一页

vllm-project/vllm

PR 列表

#36127 [Model] Add support for moonshotai/Kimi-Audio-7B-Instruct

#36169 feat(grpc): extract gRPC servicer into smg-grpc-servicer package, add --grpc flag to vllm serve

#35777 [Kernel] Add fused_sigmoid_gating_delta_rule_update kernel for Qwen3 Next

#35931 [Bugfix][LMCache][KVConnector] fix potential memory leak in LMCache multiprocess mode

#35891 [Perf] Support FP8 KV cache for Flashinfer MLA Sparse

#29184 [Core] NGram GPU Implementation compatible with Async Scheduler

#35472 [torch.compile] Stop lazily compiling

#35727 [model] support FireRedASR2

参与讨论