Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 05:19 同步状态：空闲下次计划：2026-06-01 06:19

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-06

#38842 [Refactor] Remove unused dead code

原始 PR · 作者 yewentao256 · 合并时间 2026-04-06 23:52

重构重要性 3.00 洞察度 2.00

清理推测解码、注意力内核和Ray执行器中的未使用死代码。

该PR是简单的清理工作，无需精读。对于关注代码质量的工程师，可快速浏览以了解哪些过时代码被移除，特别是MLP speculator中旧版V0方法的清理，反映了推测解码模块的演进。

refactorspeculative-decodingcleanup

#38047 [Models][GDN] Remove GPU/CPU syncs in `GDNAttentionMetadata.build` during speculative decoding

原始 PR · 作者 lgeiger · 合并时间 2026-04-06 23:39

性能优化重要性 6.00 洞察度 5.00

移除推测解码中GDNAttentionMetadata.build的GPU/CPU同步，提升吞吐和首token延迟。

该PR值得精读，尤其对于关注性能优化和推测解码的工程师。关键设计决策是将掩码移至CPU以利用PyTorch的异步索引支持，这是一个典型的设备放置优化案例。建议关注变更如何保持功能一致性，以及output_size参数的作用。

performancespeculative-decoding

#38879 [Gemma4] Enable Fast Prefill Optimization

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-06 23:19

性能优化重要性 6.00 洞察度 5.00

为 Gemma 4 模型启用快速预填充优化，显著降低首字节延迟并提升吞吐量。

建议技术管理者和工程师精读此 PR，特别是关注 `Gemma4SelfDecoderLayers` 类的设计和快速预填充逻辑的实现。值得注意的设计决策包括条件化编译和 KV 共享元数据的使用，对于类似模型性能优化具有借鉴价值。

gemma4performancemodel

#38663 [Feat][Core] safely abort requests when FSM fails to advance

原始 PR · 作者 walterbm · 合并时间 2026-04-06 23:00

缺陷修复重要性 6.00 洞察度 6.00

修复结构化输出FSM失败时请求挂起的bug，安全中止请求。

建议工程师阅读以了解FSM失败处理的设计决策，特别是resumable字段的重用和状态管理；关注调度器update_from_output方法的变更，这对理解结构化输出错误处理有价值。

bugfixstructured-output

#38150 [Mistral Grammar] Support Grammar Factory

原始 PR · 作者 juliendenize · 合并时间 2026-04-06 22:28

功能重要性 6.00 洞察度 6.00

添加Mistral语法工厂支持，启用结构化输出和工具调用的Lark语法生成。

建议精读此PR，特别是vllm/tool_parsers/mistral_tool_parser.py中的adjust_request方法设计和vllm/sampling_params.py中的验证逻辑，以了解如何平衡新特性与向后兼容。关注review中的设计权衡，如兼容性处理和错误消息改进，这对类似功能集成有借鉴意义。

structured-outputtool-callingmodel

#38000 [Model] Add support for BharatGen's Param2MoE model

原始 PR · 作者 bhargav-patel-29 · 合并时间 2026-04-06 16:19

功能重要性 6.00 洞察度 4.00

为BharatGen的Param2MoE模型添加vLLM支持，实现GQA-based MoE架构集成。

建议技术管理者关注新模型架构的实现细节，特别是MoE层的处理；工程师可精读param2moe.py以学习AutoWeightsLoader的使用和权重映射逻辑。

featuremodel

#37512 MiniMax-M2: add Eagle3 speculative decoding support

原始 PR · 作者 liuchenbing2026 · 合并时间 2026-04-06 10:50

功能重要性 6.00 洞察度 6.00

为MiniMax-M2模型添加Eagle3推测解码支持，扩展模型功能。

建议技术管理者和工程师精读此PR，重点关注如何通过EagleModelMixin标准化集成推测解码支持的设计模式，以及从注册表错误中学习代码审查的重要性，这些对类似模型扩展有借鉴价值。

featuremodelspeculative-decoding

#38501 [ROCm][Quantization] Add asymmetric INT8 quantization support to TritonInt8ScaledMMLinearKernel

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-06 09:42

功能重要性 6.00 洞察度 6.00

为ROCm平台Triton内核添加非对称INT8量化支持，解锁非对称INT8模型运行。

建议精读vllm/model_executor/kernels/linear/scaled_mm/triton.py文件，关注非对称量化处理逻辑和与Cutlass内核的对齐设计；对于ROCm平台开发者，此PR提供了关键量化支持，值得参考实现细节。

rocmquantizationfeature

第 198 / 253 页 · 共 2021 条

上一页 1 … 196 197 198 199 200 … 253 下一页

vllm-project/vllm

PR 列表

#38842 [Refactor] Remove unused dead code

#38047 [Models][GDN] Remove GPU/CPU syncs in `GDNAttentionMetadata.build` during speculative decoding

#38879 [Gemma4] Enable Fast Prefill Optimization

#38663 [Feat][Core] safely abort requests when FSM fails to advance

#38150 [Mistral Grammar] Support Grammar Factory

#38000 [Model] Add support for BharatGen's Param2MoE model

#37512 MiniMax-M2: add Eagle3 speculative decoding support

#38501 [ROCm][Quantization] Add asymmetric INT8 quantization support to TritonInt8ScaledMMLinearKernel

参与讨论