Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-20

#36294 [MoE Refactor] Rename "naive" all2all backend

原始 PR · 作者 bnellnm · 合并时间 2026-03-20 03:50

重构重要性 6.80 洞察度 5.00

移除MoE层的'naive' all2all后端选项，并重命名相关属性。

建议精读此PR以了解MoE后端配置的演进，特别是属性重命名的设计决策，这有助于未来类似重构。关注`vllm/model_executor/layers/fused_moe/config.py`中的属性变更，以及配置验证中的fallback机制，可作为清理已弃用选项的参考范例。

moerefactordocumentation

#33049 [MoE Refactor] DefaultMoERunner simplifcation

原始 PR · 作者 bnellnm · 合并时间 2026-03-20 03:07

重构重要性 8.12 洞察度 5.00

重构DefaultMoERunner的forward方法，简化MoE模块代码结构。

推荐精读此PR，关注设计决策如模块化拆分、流同步处理和分派策略，这些为后续MoE优化奠定基础。

refactormoe

2026-03-19

#37418 [Bugfix][ROCm] Fix MoRI + AITER FP8 dispatch compatibility for defer_input_quant

原始 PR · 作者 Duyi-Wang · 合并时间 2026-03-19 17:49

缺陷修复重要性 5.00 洞察度 5.00

修复ROCm平台MoRI与AITER后端FP8量化分发不兼容的bug。

建议精读此PR，了解MoE架构中FP8量化处理的设计权衡，特别是如何通过条件化属性和异常移除实现后端兼容。关注AiterExperts.expects_unquantized_inputs的条件逻辑和MoriPrepareAndFinalize.prepare中的量化跳过机制。

bugfixrocmquantization

#37231 [Bugfix] Expand quantization method support in perf metrics

原始 PR · 作者 thillai-c · 合并时间 2026-03-19 07:54

缺陷修复重要性 5.00 洞察度 5.00

扩展性能指标模块对 22 种量化方法的支持，修复量化模型 MFU 报告失败问题。

建议技术管理者和工程师精读此 PR，以了解如何处理量化配置解析的扩展性问题。重点关注 `_QUANT_WEIGHT_BYTE_SIZE` 字典的设计决策，它提供了一种集中管理量化方法属性的方式。此外，review 中的测试优化建议值得关注，可作为代码重构的参考。

bugfixquantizationperformance

#37238 [Model Runner V2] Spec decode rejection sampler greedy support

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-03-19 06:59

功能重要性 7.81 洞察度 6.00

为推测解码拒绝采样器添加贪婪采样支持，优化温度为零时的性能。

建议工程团队精读此PR，特别关注`_gather_draft_logits_and_target_argmax_kernel`和`_probabilistic_rejection_kernel`的设计，以及review中讨论的正确性问题。设计决策如本地argmax计算和贪婪路径隔离值得学习。

speculative-decodingfeatureperformance

2026-03-18

#37205 [Kernel] Add gpt-oss Router GEMM kernel

原始 PR · 作者 xyang16 · 合并时间 2026-03-18 23:15

性能优化重要性 6.00 洞察度 7.00

添加gpt-oss优化的Router GEMM kernel，提升低批次大小下的输出token吞吐量。

建议技术管理者和工程师精读此PR，重点关注以下设计决策： - GateLinear中多层GEMM调度的实现，如何平衡性能和通用性。 - 新kernel的错误处理和硬件兼容性检查，使用TORCH_CHECK替代assert。 - 与LoRA集成的扩展，通过GateLinearWithLoRA支持自定义路由。这些决策展示了在优化性能时的权衡和最佳实践。

performancetest

#37386 fix(glm47): improve tool call parsing and content normalization

原始 PR · 作者 karanb192 · 合并时间 2026-03-18 16:12

缺陷修复重要性 6.00 洞察度 5.00

修复 GLM-4.7 工具调用解析正则表达式，规范化内容为 None 以符合 OpenAI API。

对于处理工具调用或 GLM 模型的工程师，建议精读正则表达式修改和内容规范化逻辑，以理解解析细节和 API 兼容性设计。同时，关注测试用例以掌握边界场景。

bugfixtesttool-calling

#36795 [Perf] Enable dual stream execution of input projection for Qwen3

原始 PR · 作者 xyang16 · 合并时间 2026-03-18 11:13

性能优化重要性 6.00 洞察度 6.00

为 Qwen3 模型输入投影启用双流执行，提升 GPU 并行度和推理性能。

建议技术管理者审查自定义操作设计和流同步机制，确保无死锁风险。工程师可精读 maybe_execute_in_parallel 函数学习多流优化模式，并关注 issue #37372 跟踪原生多流支持。该 PR 值得关注其性能提升与代码设计的权衡。

performanceqwentorch.compile

第 250 / 253 页 · 共 2018 条

上一页 1 … 249 250 251 252 253 下一页