Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 11:18 同步状态:空闲 下次计划:2026-04-19 12:18

PR 列表

已合并 794 · 已分析 794
更多筛选
2026-03-28

#31201 Add nvidia h800 moe config

作者 lengrongfu · 合并时间 2026-03-28 07:28

功能 重要性 5.00 洞察度 3.00

为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。

对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。

基础设施 重要性 5.00 洞察度 3.00

升级 ROCm Docker 镜像至 7.2.1,更新 PyTorch 和 Triton 版本,并添加 pytest 退出代码修复。

对于在 AMD GPU 上部署 vLLM 的团队,此 PR 值得关注以了解基础设施更新;建议精读 Dockerfile 变更,注意讨论中的设计决策(如 git 操作设计),并监控 CI 测试结果以确保稳定性。

#38126 [NVIDIA] Fix DGX Spark logic

作者 johnnynunez · 合并时间 2026-03-28 06:26

缺陷修复 重要性 6.00 洞察度 6.00

修复 DGX Spark 设备的 SM121 架构匹配逻辑,确保 NVFP4 等内核正确编译。

该 PR 值得构建系统工程师精读,重点关注 `cuda_archs_loose_intersection` 函数的设计决策,如后缀匹配策略和跨版本兼容性处理。对于一般开发者,了解 CMake 架构守卫的更新模式即可。

缺陷修复 重要性 6.00 洞察度 5.00

修复EAGLE spec decode中FULL cudagraph期间attention metadata未重建导致的draft tokens质量下降问题。

该PR值得精读,特别是关注attention metadata构建的正确性设计,以及cudagraph与spec decode的交互方式,适合技术管理者评估spec decode改进的潜在风险。

#38369 [CI] Skip failing test

作者 NickLucche · 合并时间 2026-03-28 04:25

测试 重要性 3.00 洞察度 2.00

在registry中为Ernie模型指定revision以跳过CI失败测试。

该PR不值得精读,除非您关注CI测试策略或多模态模型集成。变更简单,设计决策较少,但需注意测试跳过的长期影响和潜在风险。

功能 重要性 6.00 洞察度 6.00

重构在线量化逻辑以支持与量化重新加载协同工作,提升代码复用。

该 PR 值得精读,特别是关注 `initialize_online_processing` 如何抽象化在线量化和重新加载的共享逻辑,展示了模块化设计的好处。建议工程师学习其代码重构技巧,并注意 review 中关于正确性和测试覆盖的讨论,以应用到类似场景。

功能 重要性 3.00 洞察度 2.00

为--speculative-config参数添加短标志-sc,提升CLI可用性。

该PR变更简单,值得快速阅读以了解vLLM项目中CLI参数添加短标志的标准做法。对于工程师,可关注review中提到的测试覆盖问题,考虑在后续维护中补充测试;对于管理者,可将其视为低风险改进,无需深入审查。

参与讨论