Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 13:34 同步状态：空闲下次计划：2026-06-01 14:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#37887 [ROCm][perf] fix Aiter sparse MLA with MTP>1

原始 PR · 作者 gronsti-amd · 合并时间 2026-04-01 07:22

缺陷修复重要性 5.00 洞察度 5.00

修复 ROCm 上 speculative decoding 与 MTP 方法及多推测 tokens 的兼容性问题，支持 DeepSeek v3.2。

建议精读此 PR，以学习如何处理注意力元数据类型验证和重构函数接口。关注 build_per_group_and_layer_attn_metadata 的设计决策，它分离了组和层元数据，提高了代码清晰度和健壮性。

rocmspeculative-decodingbugfix

#34539 Generative Scoring

原始 PR · 作者 vedantjh2 · 合并时间 2026-04-01 07:02

功能重要性 7.00 洞察度 7.00

为CausalLM模型新增独立生成评分API端点，支持高效特定令牌概率计算。

建议技术管理者关注此PR的设计决策，特别是API分离的架构权衡，这对未来功能扩展有借鉴意义。工程师应精读 `vllm/v1/sample/sampler.py` 中的 `gather_specific_token_logprobs` 方法，了解高效日志概率计算的实现细节，同时检查测试文件以确保覆盖边界条件。

frontendfeaturedocumentation

#38333 feat(grpc): add periodic stats logging and servicer log forwarding

原始 PR · 作者 CatherineSue · 合并时间 2026-04-01 06:50

功能重要性 5.00 洞察度 5.00

为vLLM gRPC服务器添加周期性状态日志，提升操作监控能力。

值得精读，特别是关注后台任务的异常处理设计和与外部模块的协作模式，这对于分布式系统的日志管理有借鉴意义。

frontendfeatureperformance

#38637 [Quantization] Consolidate dummy format logic into DummyModelLoader

原始 PR · 作者 Josephasafg · 合并时间 2026-04-01 06:20

重构重要性 5.00 洞察度 5.00

将 dummy 权重加载逻辑整合到 DummyModelLoader 中，移除 layerwise.py 中的重复代码。

建议精读此 PR，以了解如何将分散的逻辑整合到特定类中，提升代码组织。关注 review 中关于回归风险的讨论，学习如何在重构时避免引入新问题。对于开发者来说，这是学习代码模块化设计的良好案例。

quantizationrefactorcleanup

#38592 [Kernel] [Helion] [17/N] Add Helion kernel torch.compile support

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-01 05:06

功能重要性 6.00 洞察度 7.00

添加Helion kernel对torch.compile的支持，通过Dynamo变量追踪器实现无缝集成。

建议开发者和架构师精读此PR，特别是`vllm/kernels/helion/register.py`中的变量追踪器注册逻辑和初始化逻辑的调整。关注如何通过将初始化移到追踪区域外来解决Dynamo可追踪性问题，以及自定义HelionKernelWrapperVariable的设计决策，这对于理解PyTorch编译集成有参考价值。

torch.compilefeaturetest

#38383 [Refactor] Remove dead code in kv connector and model runner

原始 PR · 作者 yewentao256 · 合并时间 2026-04-01 05:05

重构重要性 3.00 洞察度 2.00

移除KV连接器和模型运行器中的死代码，清理代码库。

该PR值得快速浏览以了解哪些代码被移除，但无需深入精读。工程师可关注删除的具体函数，以避免在未来开发中引入类似死代码。

refactorcleanupkv-connector

#38451 [Perf] Fix DBO overlap: capture DeepEP event before yield

原始 PR · 作者 czhu-cohere · 合并时间 2026-04-01 04:39

性能优化重要性 6.00 洞察度 5.00

修复DeepEP后端DBO重叠问题，通过调整事件捕获顺序提升约30%吞吐量。

建议精读此PR，特别是对于关注性能优化和异步编程的工程师。值得关注的设计决策是如何通过调整事件顺序来最大化重叠，避免不必要的依赖。

performancebugfixrefactor

#36286 [MoE Refactor] Migrate Unquantized to Full Oracle Flow

原始 PR · 作者 yzong-rh · 合并时间 2026-04-01 03:43

重构重要性 6.00 洞察度 6.00

迁移未量化MoE（BF16）代码到模块化内核流程，统一FlashInfer TRTLLM和非monolithic后端实现。

建议技术管理者和工程师精读此PR，重点关注： 1. 后端选择oracle的设计，如优先级回退模式和平台感知逻辑，这在多加速器环境中具有借鉴价值。 2. 模块化内核模式如何统一不同量化方案（BF16、FP8、NvFP4），体现了代码抽象和可扩展性设计。 3. 讨论中的设计权衡，如TPU/OOT早期退出、shared_experts处理，以及如何平衡重构范围与稳定性。

refactorquantizationtest

第 214 / 253 页 · 共 2024 条

上一页 1 … 212 213 214 215 216 … 253 下一页