Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-24

#37906 [ROCm][CI] Split Entrypoints Integration (API Server 1) into 3 jobs

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-24 09:48

基础设施重要性 4.00 洞察度 2.00

将AMD CI中的Entrypoints集成测试作业拆分为三个并行作业，以优化ROCm硬件回归跟踪。

对于关注CI配置或ROCm测试的工程师，值得快速浏览以了解测试拆分模式；review中提出的可维护性问题值得在类似更改中考虑，但PR本身逻辑简单。

rocmcitest

#37895 [CI] Add batch invariant test: Block FP8 + small MOE

原始 PR · 作者 yewentao256 · 合并时间 2026-03-24 09:16

测试重要性 3.00 洞察度 2.00

添加批量不变性测试覆盖 Block FP8 和小型 MoE 模型。

此 PR 变更简单，适合快速审阅，关注点在于测试覆盖的扩展和环境变量设置的最佳实践，建议工程师在类似 CI 配置时借鉴此改进。

citestfp8

#37932 [Model Runner V2] Gather multimodal embeddings before draft model postprocess

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-03-24 09:14

缺陷修复重要性 5.00 洞察度 3.00

修复 Model Runner V2 中多模态嵌入聚集时机错误，避免草稿模型跳过嵌入计算。

对于技术管理者和工程师，此 PR 值得快速审阅以确认修复逻辑。可以关注状态管理时机的重要性，尤其是在异步和推测解码场景中，作为学习案例。

bugfixspeculative-decodingrefactor

#36803 [Test] E2E Nemotron-3-Super tests

原始 PR · 作者 roikoren755 · 合并时间 2026-03-24 08:49

测试重要性 5.00 洞察度 3.00

为Nemotron-3-Super模型添加BF16、FP8和NVFP4量化格式的端到端GSM8K测试。

该PR值得快速浏览以了解Nemotron-3-Super模型的测试配置细节，特别关注YAML文件中的模型命名一致性和CI资源设置。对于工程师，可学习如何集成推测解码到端到端测试中；对于管理者，可视为测试覆盖扩展的常规更新。

testmodelquantization

#37016 [CI] Split V1 Others into 3 separate jobs

原始 PR · 作者 khluu · 合并时间 2026-03-24 06:44

基础设施重要性 4.00 洞察度 3.00

拆分 V1 Others CI 作业为三个并行任务，优化测试执行时间。

该 PR 值得快速审查，重点关注配置的正确性和完整性。工程师应验证测试分割逻辑是否合理，确保所有原测试都被包含，并检查 mirror 配置。对于 CI 维护者，这是一个常规优化，可借鉴类似分拆策略。

citestrefactor

#35007 [Bugfix] Register VLLM_BATCH_INVARIANT in envs.py to fix spurious unknown env var warning

原始 PR · 作者 WindChimeRan · 合并时间 2026-03-24 06:31

缺陷修复重要性 4.00 洞察度 4.00

在 envs.py 中注册 VLLM_BATCH_INVARIANT 环境变量，修复因未注册而导致的未知变量警告。

该 PR 值得快速浏览以了解 vLLM 环境变量注册机制；重点关注 `envs.py` 中的解析实现设计决策，以及从函数到变量的转变对代码结构的影响。对于维护者，建议监控后续是否有因解析问题引发的崩溃报告。

bugfixrefactortest

#36728 [Bug][MoE] Strengthen _supports_current_device() checks in the TRTLLM FP8, NVFP4, and FlashInfer CuteDSL MoE experts

原始 PR · 作者 yzong-rh · 合并时间 2026-03-24 05:02

缺陷修复重要性 5.00 洞察度 3.00

加强MoE专家设备支持检查，防止在未安装FlashInfer内核的平台崩溃。

该PR是一个重要的bugfix，值得精读以理解MoE专家选择机制和设备支持检查的实现。关注_supports_current_device()方法的修改和FlashInfer可用性检查的集成，以及typo修复的设计决策。

bugfixquantizationperformance

#36725 [Bug][MoE] Fix TRTLLM NVFP4 Routing Kernel Precision

原始 PR · 作者 robertgshaw2-redhat · 合并时间 2026-03-24 04:19

缺陷修复重要性 5.00 洞察度 3.00

修复TRTLLM NVFP4 MoE路由核精度错误，从bfloat16改为float32以提高准确性。

此PR值得快速审阅，变更简单直接，是重要的bug修复。工程师可关注精度管理在量化模型中的设计决策，以及如何通过移除不必要的转换优化准确性。

bugfixperformancequantization

第 244 / 253 页 · 共 2019 条

上一页 1 … 242 243 244 245 246 … 253 下一页

vllm-project/vllm

PR 列表

#37906 [ROCm][CI] Split Entrypoints Integration (API Server 1) into 3 jobs

#37895 [CI] Add batch invariant test: Block FP8 + small MOE

#37932 [Model Runner V2] Gather multimodal embeddings before draft model postprocess

#36803 [Test] E2E Nemotron-3-Super tests

#37016 [CI] Split V1 Others into 3 separate jobs

#35007 [Bugfix] Register VLLM_BATCH_INVARIANT in envs.py to fix spurious unknown env var warning

#36728 [Bug][MoE] Strengthen _supports_current_device() checks in the TRTLLM FP8, NVFP4, and FlashInfer CuteDSL MoE experts

#36725 [Bug][MoE] Fix TRTLLM NVFP4 Routing Kernel Precision

参与讨论