Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

compilation 相关 PR

2026-04-18

#39844 [XPU] fix all_reduce all-zero accuracy issue under torch.compile

作者 chaojun-zhang · 合并时间 2026-04-18 10:33

缺陷修复 重要性 5.86 洞察度 6.00

修复 XPU 平台在 torch.compile 模式下 all_reduce 返回全零的精度问题。

xpu bugfix v1 kernel compilation

该 PR 值得精读,因为它揭示了 torch.compile 在优化 in-place 操作时可能导致的隐蔽精度问题,并展示了通过 out-of-place 操作规避编译器优化的实用技巧。关注点:条件克隆的逻辑设计(`torch.compiler.is_compiling()`)和类型提示的添加如何提升代码健壮性。

2026-04-17

#39692 [Compilation] Add Unit Tests for VllmFusionPatternMatcherPass

作者 BadrBasowid · 合并时间 2026-04-17 06:57

测试 重要性 7.31 洞察度 4.00

新增编译fusion pattern matcher pass的单元测试,验证uuid稳定性和匹配计数。

test compilation v1

该PR值得测试工程师和编译模块开发者关注,可学习如何为pattern matcher设计单元测试,但需注意review中提到的全局状态问题,避免在自身测试中引入类似风险。

2026-04-16

#38657 [compile] Invoke split FX graph by codegen.

作者 zhxchen17 · 合并时间 2026-04-16 12:03

性能优化 重要性 7.94 洞察度 6.00

通过代码生成替代FX图执行,减少推理循环的运行时开销。

performance compilation v1 core

建议技术管理者精读此PR,重点关注代码生成器的设计决策和潜在漏洞。对于工程师,值得学习如何通过代码生成优化Python执行路径,但需注意review中提到的未解决问题,并在相关工作中避免类似陷阱。

2026-04-15

#39718 [compile] Nest inductor cache under AOT compile dir

作者 fulvius31 · 合并时间 2026-04-15 01:17

基础设施 重要性 5.00 洞察度 4.00

将TorchInductor缓存目录嵌套在AOT编译目录下,实现自包含缓存树。

compilation v1

该PR实现简洁,但涉及编译缓存的核心路径变更,建议相关开发者精读。特别关注环境变量设置的持久性需求与上下文管理器建议之间的权衡,以及目录创建错误处理的决策。

2026-04-14

#39240 Measure encoder compile time seperate from llm backbone

作者 Lucaskabela · 合并时间 2026-04-14 22:52

性能优化 重要性 6.00 洞察度 5.00

分离测量多模态编码器与语言模型骨干编译时间,提升性能监控精度。

performance multi-modality compilation v1

建议多模态模型开发者和性能优化工程师精读此 PR,关注 CompilationTimes 设计、条件日志输出和基准测试重构模式,以学习如何扩展监控指标并应用到其他性能追踪场景。

2026-04-13

#39201 [compile] Enable AOT compile with batch invariance mode.

作者 zhxchen17 · 合并时间 2026-04-13 10:58

功能 重要性 4.00 洞察度 3.00

移除AOT编译与批不变模式的互斥限制,允许两者同时启用。

v1 compilation core feature

该PR变更简单直接,适合快速浏览以了解编译与批不变模式的兼容性改进。值得关注的设计决策是移除了未经验证的互斥限制,体现了对功能成熟度的信心。建议结合测试结果和后续使用反馈评估实际效果。

#38360 [compile] Bug fix for _decompose_size_nodes

作者 anijain2305 · 合并时间 2026-04-13 04:20

缺陷修复 重要性 5.00 洞察度 5.00

修复编译后端中 _decompose_size_nodes 对 getitem 用户处理错误导致的参数数量问题。

bugfix v1 compilation core

建议编译模块开发者精读此 PR,了解 size 节点分解的正确处理方式,并注意 symbolic 索引的潜在问题。对于符号形状支持,可能需要进一步优化或添加测试覆盖 symbolic 场景。