Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 06:35 同步状态：空闲下次计划：2026-05-31 07:35

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-23

#39684 [Compilation] Refactor SiluMul activation+quant Fusion Pass

原始 PR · 作者 BadrBasowid · 合并时间 2026-04-23 21:10

重构重要性 8.06 洞察度 6.00

重构 SiluMul 激活与量化融合 pass，统一注册框架

该 PR 值得所有关心 vllm 编译优化和代码架构的开发者精读。 - 展示了如何将现有代码平滑迁移到 `VllmPatternReplacement` / `VllmFusionPatternMatcherPass` 框架。 - 设计上通过 `pattern` 和 `replacement` 属性分离模式定义，避免了手工调用 `register_replacement`，提高了可读性。 - 测试中的特殊处理虽然临时，但作者已承诺统一，社区可以跟进。 - 建议学习其拆分思路，未来新 fusion pass 应直接使用该模式。

compilationrefactor

#40037 [ROCm] Add gfx1102/gfx1103 support

原始 PR · 作者 mgehre-amd · 合并时间 2026-04-23 16:32

缺陷修复重要性 3.81 洞察度 3.00

新增gfx1102/gfx1103 GPU架构支持

建议合入。此修复对AMD RDNA 3 iGPU用户为必需，且改动简洁、风险低。值得注意的要点是采用编译器提供的通用宏而非手动枚举，这是一种更健壮的做法，未来新增架构时无需修改源代码。

rocmbugfix

#39879 [UT][Hardware] let torchrun example tests use the default backend

原始 PR · 作者 zhenwei-intel · 合并时间 2026-04-23 16:22

缺陷修复重要性 3.38 洞察度 3.00

移除 torchrun 测试中硬编码的 gloo 后端

该 PR 可作为基础设施改进的参考，但价值有限。建议关注 review bot 关于移除整个 `dist.init_process_group()` 调用的建议，考虑是否在后续 PR 中进一步清理。

bugfixtest

#39878 [Build] Switch default CUDA to 13.0, update CUDA architecture lists, clean up stale build-args

原始 PR · 作者 Harry-Chen · 合并时间 2026-04-23 15:51

基础设施重要性 5.47 洞察度 5.00

默认 CUDA 版本 12.9 → 13.0，重构架构列表

建议仔细阅读架构列表调整部分，特别是关于 SM86 和 SM89 纳入的决策理由。同时关注 Volta 用户迁移路径的文档说明是否充分。

ci/buildnvidiacompilation

#40473 [Misc] Support Human-readable (k/K/m/M..) json cli arg

原始 PR · 作者 NickLucche · 合并时间 2026-04-23 15:42

功能重要性 8.23 洞察度 5.00

支持JSON CLI参数中的人类可读数字后缀（如1k、80m），提升用户体验。

建议工程师阅读此PR以了解如何扩展CLI参数解析，关注正则表达式设计（单词边界使用）和循环导入的解决方式（函数移动）。对于类似功能，可参考此实现模式。

featurefrontend

#40580 [MM][CG] Support `--enable-vit-cuda-graph` option for VLM examples

原始 PR · 作者 shen-shanshan · 合并时间 2026-04-23 13:46

功能重要性 6.79 洞察度 5.00

为视觉语言模型示例添加 CUDA 图编译支持选项。

建议关注 `maybe_add_vit_cuda_graph_compilation_config` 函数的配置逻辑和 `get_encoder_cudagraph_budget_range` 的设计权衡，了解 CUDA 图优化在多模态推理中的实现方式。

featuremulti-modalitycudagraph

#40399 [Responses] Add tool_choice/tools validation to match OpenAI behavior

原始 PR · 作者 sfeng33 · 合并时间 2026-04-23 13:46

功能重要性 7.42 洞察度 5.00

为Responses API添加tool_choice/tools验证，对齐OpenAI行为。

此PR展示了如何利用Pydantic的`model_validator`在API入口层实现业务规则校验，代码简洁且可测试性强。推荐所有涉及用户输入验证的模块参考此实现模式。对于使用Responses API的开发者，值得了解其`tool_choice`默认行为的变化。

frontendtool-callingresponses-api

#40151 [compile] Skip FX graph deserialiaztion on loading, further reducing warm compile time.

原始 PR · 作者 zhxchen17 · 合并时间 2026-04-23 13:43

性能优化重要性 7.47 洞察度 6.00

通过跳过FX图反序列化，将热编译时间降低至亚2秒级别。

建议技术管理者和工程师精读此PR，重点关注`generate_execution_code_with_name`的设计决策，以及缓存反序列化的跳过逻辑。这些变更展示了如何通过代码生成优化编译性能，值得学习。

performancecompilation

第 137 / 253 页 · 共 2019 条

上一页 1 … 135 136 137 138 139 … 253 下一页