Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 10:25 同步状态：空闲下次计划：2026-06-01 11:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#38423 [NVIDIA] Bugfix NVFP4 DGX Spark and RTX50

原始 PR · 作者 johnnynunez · 合并时间 2026-03-31 00:36

缺陷修复重要性 7.00 洞察度 6.00

修复SM12x GPU上NVFP4模型的非法指令错误，通过升级CUTLASS和添加运行时守卫。

该PR值得精读，特别是对于从事量化或硬件支持开发的工程师。关注的设计决策包括：运行时SM守卫的实现方式、依赖版本管理策略（如CUTLASS升级到v4.4.2解决tile约束）、以及后端选择逻辑的优化以确保安全回退。建议结合Issue评论中的SMEM溢出问题，评估长期解决方案。

bugfixquantizationperformance

#35753 [Mamba] Add stochastic rounding support

原始 PR · 作者 roikoren755 · 合并时间 2026-03-31 00:33

功能重要性 6.00 洞察度 7.00

为 Mamba SSM 内核添加随机舍入支持，提升长序列数值稳定性。

建议技术管理者和工程师精读此 PR，重点关注 Triton 内核中 inline_asm_elementwise 的使用和配置验证设计，这些决策揭示了在硬件特定优化与可移植性之间的权衡。

featuremodelperformance

2026-03-30

#37698 [ROCm][Bugfix] fix exception related to trust_remote_code for MiniMax-M2.1-MXFP4

原始 PR · 作者 hongxiayang · 合并时间 2026-03-30 23:49

缺陷修复重要性 6.00 洞察度 6.00

修复Quark模型中trust_remote_code硬编码导致的异常，允许用户覆盖并优化性能。

建议精读此PR，关注设计决策如使用预加载hf_config避免硬编码调用、安全字典访问以提升健壮性、以及早期返回逻辑优化性能。同时注意revision参数清理的后续处理。

bugfixrocmquantization

#37291 [Bugfix] Handle ParallelLMHead in compressed-tensors get_quant_method

原始 PR · 作者 mgehre-amd · 合并时间 2026-03-30 22:30

缺陷修复重要性 5.00 洞察度 5.00

修复 compressed-tensors 量化中 ParallelLMHead 未处理的问题，确保 lm_head 权重正确量化。

对于从事量化或 vLLM 核心层开发的工程师，此 PR 值得精读，因为它展示了如何扩展量化方法以支持特定层类型，并提供了完整的测试模式。对于其他开发者，可作为简单 bugfix 参考，了解量化配置的细节处理。

bugfixquantizationtest

#38547 [Misc] Add @tomeras91 as a maintainer of Nemotron related code + mamba block

原始 PR · 作者 tomeras91 · 合并时间 2026-03-30 21:12

基础设施重要性 1.00 洞察度 1.00

更新 CODEOWNERS 文件，添加 tomeras91 作为 Nemotron 和 Mamba 相关代码的所有者。

此 PR 变更简单，不值得深入精读，但可作为代码所有者管理流程的参考示例。对于维护者或团队管理者，可关注 glob 模式的使用方式，以确保未来类似变更的规范性。

#38255 [Bugfix] Remove false-positive format mismatch warnings in FLA ops

原始 PR · 作者 tdoublep · 合并时间 2026-03-30 20:32

缺陷修复重要性 3.00 洞察度 2.00

移除FLA操作中序列长度小于头数时的假阳性格式不匹配警告。

此PR变更直接，值得快速阅读以理解假阳性警告的移除背景。对于维护FLA模块或处理推理日志的工程师，可关注警告移除的合理性，确保测试覆盖充分，无潜在副作用。

bugfixcleanupmodel

#38535 [Bugfix][CPU] Skip set_num_threads after thread binding

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-03-30 20:13

缺陷修复重要性 6.00 洞察度 6.00

修复CPU后端中线程绑定后禁止更改线程数的bug，避免潜在问题。

这个PR值得精读，因为它展示了猴子补丁的使用场景和潜在风险，关注点在设计权衡：猴子补丁的便利性与调试难度之间的平衡。

bugfixcputest

#37123 [Core][CI] Add opt-in media URL caching via VLLM_MEDIA_CACHE

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-30 19:58

功能重要性 5.00 洞察度 7.00

为媒体URL添加可选磁盘缓存功能，通过环境变量启用。

该 PR 值得精读，特别是缓存设计和并发处理部分。关注 `_maybe_evict` 中的驱逐策略和原子写实现，这些是处理高并发场景的关键设计决策。

featuremulti-modalityperformance

第 221 / 253 页 · 共 2021 条

上一页 1 … 219 220 221 222 223 … 253 下一页