Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 16:54 同步状态：空闲下次计划：2026-05-31 17:54

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-15

#38372 [Hybrid] Simplify accepted token counting in spec decode for hybrid models

原始 PR · 作者 fuscof-ibm · 合并时间 2026-04-15 06:19

重构重要性 6.02 洞察度 5.00

简化混合模型推测解码中接受令牌计数的逻辑，提升性能与可读性。

该PR值得精读，展示了如何通过简化算法逻辑提升性能。关注点： - 设计决策：基于领域知识（令牌连续性）优化计算，避免过度工程。 - 性能验证：通过详细基准测试（延迟、服务基准、准确性）确保改进有效。 - 可读性提升：注释更新帮助理解新逻辑。

refactorperformancehybrid

#39548 [Bugfix][Mooncake] Fix thread-local CUDA context for NVLink transfers in _send_blocks

原始 PR · 作者 zhewenl · 合并时间 2026-04-15 05:13

缺陷修复重要性 6.45 洞察度 5.00

修复Mooncake连接器在TP>0时NVLink传输因线程局部CUDA上下文错误而失败的问题。

该PR值得精读，特别是对于涉及多GPU通信和线程池CUDA上下文管理的开发者。关注点包括：设备捕获时机、线程池初始化器的使用、以及review中关于API选择和性能优化的讨论。

bugfixkv-connectornvidia

#39820 [Bug] Fix batch invariance nvfp4 support

原始 PR · 作者 yewentao256 · 合并时间 2026-04-15 05:08

缺陷修复重要性 5.26 洞察度 4.00

修复NVFP4线性内核在批处理不变模式下缺失仿真后端支持的问题。

该PR值得快速浏览，重点关注环境变量优先级调整的设计决策，以及批处理不变模式下强制使用仿真后端的权衡。对于需要确定性执行的NVFP4量化场景，此修复是关键补丁。

bugfixquantizationnvidia

#39719 fix(lmcache): correct store for cached requests while enable prefix cache

原始 PR · 作者 maobaolong · 合并时间 2026-04-15 04:51

缺陷修复重要性 5.70 洞察度 6.00

修复LMCache存储元数据计算中前缀缓存命中块重复计数导致的存储不足问题。

该PR值得精读，尤其是`GetStoreMetadata`方法中的注释更新，清晰解释了为何使用`max`而非累加，以及LMCache存储块组对齐导致的边界问题。这是理解vLLM中多级缓存（GPU前缀缓存与LMCache）交互设计的好案例。

bugfixkv-connector

#37848 [Reasoning][Frontend] Add model config to adjust_request in reasoning parser

原始 PR · 作者 rishitdholakia13 · 合并时间 2026-04-15 04:29

功能重要性 5.36 洞察度 5.00

在推理解析器中添加模型配置支持，以启用 Cohere 模型的结构化标签输出。

建议技术管理者和工程师精读此 PR，关注如何通过 `model_config` 参数传递模型架构信息，以及设计上如何平衡统一处理与向后兼容。这对于理解 vLLM 推理模块的演进方向和结构化输出支持机制有参考价值。

featurefrontendstructured-output

#35549 [MoE Refactor] Refactor ZeroExpertFusedMoE into new framework

原始 PR · 作者 bnellnm · 合并时间 2026-04-15 04:11

重构重要性 9.18 洞察度 7.00

重构MoE零专家处理逻辑，将ZeroExpertFusedMoE功能移至新框架。

建议精读此PR，关注ZeroExpertRouter的设计（如路由与零专家计算结合）和MoERunnerBase的扩展（_maybe_add_zero_expert_output方法），这些决策体现了模块化架构思想，对理解vLLM的MoE实现和未来重构有重要参考价值。

moerefactorcleanup

#39007 [MoE] Move GPT OSS Triton kernel experts into fused_moe/experts/

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-15 03:27

重构重要性 4.00 洞察度 3.00

将GPT OSS Triton MOE内核文件移至experts子目录，统一代码结构。

建议开发者关注此变更以了解代码结构演进，特别是 MoE 相关模块；对于维护者，这是一个良好的代码清理示例，值得学习以保持代码库一致性。

refactormoegpt-oss

#36162 [Mamba] Flashinfer selective_state_update

原始 PR · 作者 roikoren755 · 合并时间 2026-04-15 03:10

功能重要性 9.18 洞察度 6.00

为Mamba模型添加FlashInfer selective_state_update内核支持，提供运行时后端调度。

该PR值得精读，重点关注调度器设计如何平衡灵活性与性能、配置集成的模式选择，以及测试覆盖对稳定性的保障。

featureperformancekernel

第 168 / 253 页 · 共 2020 条

上一页 1 … 166 167 168 169 170 … 253 下一页