Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 13:34 同步状态：空闲下次计划：2026-06-01 14:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#36540 [fix] Remove trtllm ragged mla prefills

原始 PR · 作者 evezhier · 合并时间 2026-04-01 03:30

缺陷修复重要性 6.00 洞察度 6.00

修复TRTLLM ragged MLA预填充的数值问题，通过修改merge_attn_states处理无上下文tokens。

建议技术管理者和工程师精读此PR，重点关注：1) `merge_attn_states`内核的修改如何优雅处理无上下文tokens，避免数值问题。2) review中讨论的安全和正确性风险，特别是`torch.empty`的使用场景和参数验证。3) 性能优化技巧，如使用CPU端tensor避免同步开销。

bugfixtestmodel

#38343 [Model] Sync upstream BT=chunk_size fix for GDN chunk_fwd_kernel_o, simplify warmup to single pass

原始 PR · 作者 AuYang261 · 合并时间 2026-04-01 03:03

性能优化重要性 6.00 洞察度 6.00

同步上游FLA内核BT计算修复，固定BT=chunk_size，简化预热循环为单次传递，减少预热时间。

建议技术管理者和工程师精读此PR，关注FLA内核BT计算的固定化设计，以及如何通过减少自动调优变种来优化预热性能。设计决策中，常量的添加和上游同步值得借鉴，可作为性能优化和代码清理的案例。

modelperformancerefactor

#37373 [torch.compile] Refactor Attention Quant Fusion Pass and Remove Boilerplate

原始 PR · 作者 BadrBasowid · 合并时间 2026-04-01 02:15

重构重要性 6.00 洞察度 6.00

重构Attention Quant Fusion Pass以减少样板代码，为未来fusion passes提供清晰基础。

建议工程师精读此PR，特别关注`VllmPatternReplacement`和`VllmFusionPatternMatcherPass`的设计决策，理解如何减少样板代码并处理缓存问题。对于从事编译优化或量化开发的团队成员，这是一个值得借鉴的重构案例。

refactortorch.compilequantization

#37766 [CI/Build] Resolve a dependency deadlock when installing the test dependencies used in CI

原始 PR · 作者 yurun00 · 合并时间 2026-04-01 02:05

基础设施重要性 3.48 洞察度 5.00

修复 CI 测试依赖安装时的依赖死锁

值得精读：展示了如何处理 Python 依赖死锁的最佳实践，包括识别自动生成文件的陷阱并修改上游生成命令而非手动编辑。对于参与构建/CI 的工程师有参考价值。

ci/buildcleanup

#37503 [4/n] Migrate FP4/W4A8 CUTLASS kernels to torch stable ABI

原始 PR · 作者 mikaylagawarecki · 合并时间 2026-04-01 01:21

重构重要性 7.00 洞察度 7.00

将FP4/W4A8 CUTLASS内核迁移到torch stable ABI，以提升ABI兼容性和系统可维护性。

建议技术管理者和工程师精读此PR，重点关注设计决策如stable ABI的集成模式、条件编译策略以及out_variant标签的处理方式。代码变更展示了如何优雅地迁移高性能内核到新ABI框架，对于涉及量化或CUTLASS集成的项目具有参考价值。

quantizationrefactorperformance

#37986 [Quantization][Autoround][XPU] Add `W4A16` Support

原始 PR · 作者 yiliu30 · 合并时间 2026-04-01 00:48

功能重要性 6.00 洞察度 6.00

添加XPU平台的W4A16 Auto-round量化支持，扩展Intel GPU上的量化推理能力。

建议工程师阅读此PR以了解XPU量化支持的设计决策，特别是权重重新打包逻辑和量化配置处理。关注INCXPULinearMethod的实现细节和review中的正确性讨论，这对理解vLLM量化框架的扩展方式有价值。

quantizationxpufeature

#37010 [Bugfix] Fix FusedMoE weight loading with padded hidden dimensions

原始 PR · 作者 SandishKumarHN · 合并时间 2026-04-01 00:22

缺陷修复重要性 6.00 洞察度 5.00

修复FusedMoE权重加载时隐藏维度填充导致的张量形状不匹配错误。

该PR值得精读，特别关注`_get_hidden_dim`方法如何优雅处理转置和3D张量布局，以及review中关于BitsAndBytes路径的权衡决策。对于涉及MoE或权重加载的开发者，可从中学习如何安全处理张量尺寸不匹配问题。

bugfixmodel

2026-03-31

#38629 [Fix] handle PaddleOCR-VL image processor max_pixels across Transformers v4/v5

原始 PR · 作者 zhang-prog · 合并时间 2026-03-31 23:50

缺陷修复重要性 3.00 洞察度 5.00

修复 PaddleOCR-VL 图像处理器在 Transformers v4/v5 中 max_pixels 访问差异的 bug。

此 PR 是一个小修复，不值得深度阅读，但可以作为跨版本兼容性处理的示例。建议工程师在类似场景中关注 trust_remote_code 作为版本区分的设计决策，并考虑添加测试以覆盖不同 Transformers 版本路径。

bugfixmodelmulti-modality

第 215 / 253 页 · 共 2024 条

上一页 1 … 213 214 215 216 217 … 253 下一页