Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 21:16 同步状态：空闲下次计划：2026-06-14 22:16

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#38592 [Kernel] [Helion] [17/N] Add Helion kernel torch.compile support

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-01 05:06

功能重要性 6.00 洞察度 7.00

添加Helion kernel对torch.compile的支持，通过Dynamo变量追踪器实现无缝集成。

建议开发者和架构师精读此PR，特别是`vllm/kernels/helion/register.py`中的变量追踪器注册逻辑和初始化逻辑的调整。关注如何通过将初始化移到追踪区域外来解决Dynamo可追踪性问题，以及自定义HelionKernelWrapperVariable的设计决策，这对于理解PyTorch编译集成有参考价值。

torch.compilefeaturetest

#38383 [Refactor] Remove dead code in kv connector and model runner

原始 PR · 作者 yewentao256 · 合并时间 2026-04-01 05:05

重构重要性 3.00 洞察度 2.00

移除KV连接器和模型运行器中的死代码，清理代码库。

该PR值得快速浏览以了解哪些代码被移除，但无需深入精读。工程师可关注删除的具体函数，以避免在未来开发中引入类似死代码。

refactorcleanupkv-connector

#38451 [Perf] Fix DBO overlap: capture DeepEP event before yield

原始 PR · 作者 czhu-cohere · 合并时间 2026-04-01 04:39

性能优化重要性 6.00 洞察度 5.00

修复DeepEP后端DBO重叠问题，通过调整事件捕获顺序提升约30%吞吐量。

建议精读此PR，特别是对于关注性能优化和异步编程的工程师。值得关注的设计决策是如何通过调整事件顺序来最大化重叠，避免不必要的依赖。

performancebugfixrefactor

#36286 [MoE Refactor] Migrate Unquantized to Full Oracle Flow

原始 PR · 作者 yzong-rh · 合并时间 2026-04-01 03:43

重构重要性 6.00 洞察度 6.00

迁移未量化MoE（BF16）代码到模块化内核流程，统一FlashInfer TRTLLM和非monolithic后端实现。

建议技术管理者和工程师精读此PR，重点关注： 1. 后端选择oracle的设计，如优先级回退模式和平台感知逻辑，这在多加速器环境中具有借鉴价值。 2. 模块化内核模式如何统一不同量化方案（BF16、FP8、NvFP4），体现了代码抽象和可扩展性设计。 3. 讨论中的设计权衡，如TPU/OOT早期退出、shared_experts处理，以及如何平衡重构范围与稳定性。

refactorquantizationtest

#36540 [fix] Remove trtllm ragged mla prefills

原始 PR · 作者 evezhier · 合并时间 2026-04-01 03:30

缺陷修复重要性 6.00 洞察度 6.00

修复TRTLLM ragged MLA预填充的数值问题，通过修改merge_attn_states处理无上下文tokens。

建议技术管理者和工程师精读此PR，重点关注：1) `merge_attn_states`内核的修改如何优雅处理无上下文tokens，避免数值问题。2) review中讨论的安全和正确性风险，特别是`torch.empty`的使用场景和参数验证。3) 性能优化技巧，如使用CPU端tensor避免同步开销。

bugfixtestmodel

#38343 [Model] Sync upstream BT=chunk_size fix for GDN chunk_fwd_kernel_o, simplify warmup to single pass

原始 PR · 作者 AuYang261 · 合并时间 2026-04-01 03:03

性能优化重要性 6.00 洞察度 6.00

同步上游FLA内核BT计算修复，固定BT=chunk_size，简化预热循环为单次传递，减少预热时间。

建议技术管理者和工程师精读此PR，关注FLA内核BT计算的固定化设计，以及如何通过减少自动调优变种来优化预热性能。设计决策中，常量的添加和上游同步值得借鉴，可作为性能优化和代码清理的案例。

modelperformancerefactor

#37373 [torch.compile] Refactor Attention Quant Fusion Pass and Remove Boilerplate

原始 PR · 作者 BadrBasowid · 合并时间 2026-04-01 02:15

重构重要性 6.00 洞察度 6.00

重构Attention Quant Fusion Pass以减少样板代码，为未来fusion passes提供清晰基础。

建议工程师精读此PR，特别关注`VllmPatternReplacement`和`VllmFusionPatternMatcherPass`的设计决策，理解如何减少样板代码并处理缓存问题。对于从事编译优化或量化开发的团队成员，这是一个值得借鉴的重构案例。

refactortorch.compilequantization

#37766 [CI/Build] Resolve a dependency deadlock when installing the test dependencies used in CI

原始 PR · 作者 yurun00 · 合并时间 2026-04-01 02:05

基础设施重要性 3.48 洞察度 5.00

修复 CI 测试依赖安装时的依赖死锁

值得精读：展示了如何处理 Python 依赖死锁的最佳实践，包括识别自动生成文件的陷阱并修改上游生成命令而非手动编辑。对于参与构建/CI 的工程师有参考价值。

ci/buildcleanup

第 275 / 314 页 · 共 2508 条

上一页 1 … 273 274 275 276 277 … 314 下一页