Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 05:19 同步状态：空闲下次计划：2026-06-01 06:19

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#39032 NemotronH default mamba_ssm_cache_dtype=float32; enable auto-hook for NemotronHNanoVLV2Config

原始 PR · 作者 netanel-haber · 合并时间 2026-04-07 03:47

缺陷修复重要性 5.00 洞察度 4.00

修复NemotronH模型mamba_ssm_cache_dtype默认值错误，统一为float32避免精度问题。

该PR值得精读，因为它展示了模型配置默认值的重要性和如何通过重构提高代码复用性。关注点包括：1. 默认值从float16到float32的变更理由。2. update_mamba_ssm_cache_dtype方法的提取如何使配置逻辑更清晰。3. NemotronHNanoVLV2Config如何通过text_config继承配置。

bugfixmodel

#38251 [Quantization] Add FlashInfer CuteDSL batched experts backend for NVFP4 MoE

原始 PR · 作者 zyongye · 合并时间 2026-04-07 02:57

功能重要性 6.00 洞察度 5.00

为NVFP4量化MoE添加FlashInfer CuteDSL批处理专家后端。

该PR值得精读，特别是对于关注MoE性能和量化优化的工程师。值得关注的设计决策包括激活格式的选择（批处理vs标准）和权重布局转换的实现。建议审查新后端的测试覆盖和性能基准。

quantizationfeaturemodel

#38799 [EASY] Drop duplicate KV-cache initialization

原始 PR · 作者 namgyu-youn · 合并时间 2026-04-07 02:05

重构重要性 2.00 洞察度 1.00

删除KV缓存量化初始化中的重复变量定义，简化代码。

这是一个非常简单的清理PR，无需深入精读。对于工程师来说，可以快速浏览以了解代码清理的示例；对于技术管理者，可以忽略此PR，除非关注代码质量指标。

refactorcleanup

#39086 [Bug] Fix mistral version dependency

原始 PR · 作者 yewentao256 · 合并时间 2026-04-07 01:31

缺陷修复重要性 3.00 洞察度 2.00

统一 mistral_common 依赖版本至 1.11.0，修复导入错误。

该 PR 变更简单直接，无需深入精读。对于工程师，值得关注的是依赖版本管理的最佳实践：确保跨环境（如 common.txt 与测试文件）的依赖版本一致，以避免运行时错误。对于技术管理者，可将其视为常规维护任务，无需额外投入。

bugfix

#24675 [MoE Refactor][Test] FusedMoE layer test

原始 PR · 作者 bnellnm · 合并时间 2026-04-07 01:17

测试重要性 8.21 洞察度 5.00

为FusedMoE层新增全面的单元测试套件，覆盖多种并行策略和量化方案。

该PR值得测试工程师和MoE模块开发者精读，以了解FusedMoE的测试设计、并行配置处理和量化支持。特别关注 `MoETestConfig` 数据类的设计、`_test_loop` 的组织结构以及量化函数重构的逻辑，这些决策对后续测试扩展有参考价值。

moetestquantization

#37635 [NIXL][Mamba][3/N] Heterogeneous TP: 3-read conv state transfer

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-07 01:07

功能重要性 9.18 洞察度 6.00

为混合注意力+Mamba模型实现异构TP的3-read RDMA卷积状态传输，支持Prefill与Decode引擎TP大小不同。

该PR值得精读，尤其是对于从事分布式推理或Mamba模型优化的工程师。关注设计决策：3-read传输如何利用DS布局避免排列开销、HeteroTPTransferConfig作为单一数据源的处理方式、以及GQA头映射修正对准确性的关键影响。建议结合#37416和#37603理解整体演进脉络。

kv-connectorfeaturemamba

#35326 [MoE Refactor] Split of DefaultMoERunner class

原始 PR · 作者 bnellnm · 合并时间 2026-04-07 00:41

重构重要性 9.18 洞察度 7.00

拆分DefaultMoERunner为基类和chunking包装器，提升MoE执行路径的模块化。

该PR值得精读，特别是设计决策如组合模式的使用和workspace共享缓冲区。关注ChunkingMoERunner的实现和review中讨论的bug修复。

refactormoe

#38944 [Core] Re-enable Inductor pre-grad passes in standalone compile (torch>=2.12)

原始 PR · 作者 frgossen · 合并时间 2026-04-07 00:37

基础设施重要性 3.00 洞察度 3.00

为PyTorch 2.12+重新启用Inductor预梯度优化通道，修复上游问题。

该PR变更简单直接，无需深入精读。值得关注的是作者提供的详细基准测试和与上游PyTorch问题的关联，可作为依赖版本管理的最佳实践参考。

torch.compile

第 197 / 253 页 · 共 2021 条

上一页 1 … 195 196 197 198 199 … 253 下一页