Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 22:03 同步状态：空闲下次计划：2026-05-31 23:03

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-11

#39512 Revert "Add nightly b200 test for spec decode eagle correctness (#38577)"

原始 PR · 作者 benchislett · 合并时间 2026-04-11 08:07

基础设施重要性 3.00 洞察度 2.00

回滚在B200设备上添加的投机解码夜间测试配置，解决CI失败问题。

这是一个简单的CI配置回滚，技术内容较少。建议：1) 对于CI/基础设施维护者，值得快速浏览以了解测试配置的变更。2) 对于投机解码功能开发者，需要关注#39441 issue以了解B200设备上测试失败的根本原因。3) 对于一般开发者，无需深入阅读代码，但应知晓测试覆盖的临时调整。

cispeculative-decoding

#39511 [Docs] Use `--torch-backend=auto` for editable install docs

原始 PR · 作者 mgoin · 合并时间 2026-04-11 06:27

文档重要性 3.00 洞察度 2.00

更新GPU安装文档，统一使用--torch-backend=auto并修正CUDA版本和GPU要求。

该PR值得快速浏览以了解安装文档的最新推荐实践，特别是--torch-backend=auto的使用。关注点：1) 文档中仍存在cu130示例可能带来的混淆；2) GPU计算能力要求变更对兼容性的影响。

documentationnvidia

#39205 [Refactor] Move MXFP8 GEMM management into MxFp8LinearKernel

原始 PR · 作者 mgoin · 合并时间 2026-04-11 05:02

重构重要性 6.00 洞察度 6.00

重构MXFP8量化线性核管理，引入模块化内核选择架构。

该PR值得精读，特别是init_mxfp8_linear_kernel中的内核选择逻辑和Mxfp8LinearKernel基类设计，展现了vLLM量化基础设施的模块化演进。关注点包括：如何平衡设计一致性与潜在风险（如compute_capability处理）、维度约束的未来解决方案，以及向后兼容性确保。

refactorquantizationkernel

#39024 Add structure to `requirements/` directory

原始 PR · 作者 hmellor · 合并时间 2026-04-11 04:46

重构重要性 5.20 洞察度 3.00

重构 requirements 目录结构，将构建和测试需求文件移至子目录以提升管理一致性。

该 PR 值得快速浏览以了解依赖管理的最佳实践，但无需深入代码细节。关注点包括： - 学习如何通过子目录结构化依赖文件来提升项目整洁度。 - 参考 `.pre-commit-config.yaml` 中统一设备处理的设计，特别是新增的 XPU 钩子如何标准化流程。

refactorci/builddocumentation

#39523 Fix pre-commit labeled trigger system

原始 PR · 作者 fynnsu · 合并时间 2026-04-11 03:54

基础设施重要性 3.00 洞察度 4.00

修复pre-commit工作流在PR被标记后不会重新触发的bug

该PR值得CI维护者精读，展示了GitHub Actions事件触发和条件过滤的精细控制。关注点：1. labeled事件类型的添加方式；2. if条件中逻辑运算符的使用，特别是对skipped状态的处理；3. 讨论中揭示的pre-run-check与pre-commit job之间的依赖关系设计。

#39450 Add Gemma4 Eagle3 support

原始 PR · 作者 fynnsu · 合并时间 2026-04-11 03:35

功能重要性 6.00 洞察度 6.00

为Gemma4模型添加Eagle3投机解码支持，提升推理性能。

建议精读此PR，特别是混合注意力对齐修复（vllm/v1/core/single_type_kv_cache_manager.py）和Pipeline Parallelism处理（vllm/model_executor/models/gemma4.py）部分；关注SupportsEagle3接口的实现方式，以及作者如何权衡新功能与已知问题（issue #36151），这反映了vLLM在投机解码扩展中的设计模式。

speculative-decodingfeaturemodel

#39002 [Bugfix] Fix FlashInfer crash with kv_cache_dtype_skip_layers

原始 PR · 作者 yzong-rh · 合并时间 2026-04-11 02:50

缺陷修复重要性 6.00 洞察度 5.00

修复 FlashInfer attention 在使用 kv_cache_dtype_skip_layers 时因数据类型不匹配导致的崩溃问题。

该 PR 值得精读，展示了如何处理量化缓存中的逐层跳过逻辑和代码设计权衡。建议关注 FlashInferBackend 初始化中的数据类型决策，以及 review 中关于 use_trtllm_attention 依赖和未来改进的讨论。

bugfixattentionquantization

#39343 [CI] Add MultiConnector (Nixl+Offloading) e2e edge case tests

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-11 01:35

测试重要性 4.00 洞察度 5.00

为MultiConnector添加端到端边缘情况测试，验证输出正确性和Prometheus指标。

此PR值得精读，特别是对于关注测试策略、分布式系统验证和Prometheus监控的工程师。建议重点关注bash脚本的改进、指标聚合设计和测试场景覆盖，这些设计决策对于构建健壮的端到端测试具有参考价值。

citestkv-connector

第 179 / 253 页 · 共 2020 条

上一页 1 … 177 178 179 180 181 … 253 下一页