Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 21:47 同步状态：空闲下次计划：2026-06-13 22:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-05

#44571 [Bugfix] Exclude vision embedder from quantization in Gemma4 Unified

原始 PR · 作者 lucianommartins · 合并时间 2026-06-05 11:47

缺陷修复重要性 5.86 洞察度 4.00

修复 Gemma4 Unified 视觉编码器被量化的问题

值得精读，这是一个典型的由缺少 `prefix` 导致量化模块无法正确匹配忽略规则的问题。对于有量化忽略列表的模型实现，确保正确传递 `prefix` 是良好实践。

bugfixmodelquantization

#44569 [DSV4] Refactor DeepseekV4Attention

原始 PR · 作者 WoosukKwon · 合并时间 2026-06-05 11:23

重构重要性 9.00 洞察度 6.00

[DSV4] 重构 DeepseekV4Attention 类体系，统一平台分派

推荐阅读，尤其适合关注多平台代码组织设计的学习者。基类 + 抽象方法 + 类变量配置的模式值得借鉴。此外，`ops/o_proj.py` 的提取是非侵入式重构的样例。建议阅读后关注后续是否会有其他模型采用类似架构。

refactordeepseekv1

#44334 [10/n] Migrate cuda_view and silu_and_mul_per_block_quant kernels to torch stale ABI.

原始 PR · 作者 cleonard530 · 合并时间 2026-06-05 11:14

重构重要性 6.58 洞察度 6.00

迁移 cuda_view 和 silu_and_mul 内核到 stable ABI

值得阅读，特别是理解 stable ABI 迁移的增量策略和 torch 版本依赖管理。对于参与 CUDA 内核编译的开发者有参考价值。

refactornvidiaci/build

#42139 [XPU][MoE] support block_fp8_moe on xpu

原始 PR · 作者 zufangzhu · 合并时间 2026-06-05 08:36

功能重要性 6.89 洞察度 5.00

XPU 支持 Block FP8 MoE 量化

该 PR 值得快速合入，变更简洁且聚焦。建议关注后续是否添加针对 Block FP8 的专项测试以覆盖更多量化组合。设计上继承现有架构，可读性强。

featureintel-gpuxpu

#44500 [Rust Frontend] Skip loading multimodal processor if `--language-model-only` is specified

原始 PR · 作者 BugenZhao · 合并时间 2026-06-05 08:02

功能重要性 6.92 洞察度 4.00

为Rust前端添加language-model-only标志跳过多模态加载

设计简洁，可以安全合并。对于仅使用语言模型的用户，推荐启用该标志以提高启动可靠性。值得关注的是如何在 Rust 和 Python 之间一致地传递参数的模式。

featurefrontendv1

#43926 fix: keep DeepSeek V4 RoPE cache on inv_freq device

原始 PR · 作者 galletas1712 · 合并时间 2026-06-05 06:30

缺陷修复重要性 4.89 洞察度 4.00

修复 DeepSeek V4 RoPE 缓存在 meta device 上的构造失败

该 PR 是经典的一行 bugfix，虽小但修复了深层 device 一致性问题。值得精读，尤其是理解 `torch.device` 在 meta device 场景下的传播模式。

bugfixdeepseekmodel

#44539 [mamba] unify KDA conv states into one cache to match 2-state SSM layout

原始 PR · 作者 ZJY0516 · 合并时间 2026-06-05 02:38

重构重要性 6.18 洞察度 6.00

统一 KDA 卷积状态为一个缓存

建议精读。这是一个典型的数据结构统一重构，展示了如何在不改变内核计算逻辑的前提下，通过调整状态分组来适配更通用的架构。对于理解 vLLM 中 Mamba 系列（特别是 GDN/KDA）的缓存设计很有帮助。

refactormodelmamba

#43707 [Logs Refactor] Optimize shutdown logs, easier to follow and consistent

原始 PR · 作者 yewentao256 · 合并时间 2026-06-05 02:36

重构重要性 6.94 洞察度 4.00

优化关闭日志，统一格式并增加上下文信息

值得精读，展示了如何系统性地改进大规模分布式系统的关机可观测性。关注的几点：日志前缀约定、级别权衡、上下文的添加时机。

refactorfrontendv1

第 39 / 312 页 · 共 2496 条

上一页 1 … 37 38 39 40 41 … 312 下一页