Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 07:36 同步状态：空闲下次计划：2026-05-31 08:36

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-22

#40597 [Bugfix][CI] Fix `v1/kv_connector/unit/test_nixl_connector_hma.py::test_fewer_blocks_with_hma`

原始 PR · 作者 NickLucche · 合并时间 2026-04-22 21:21

缺陷修复重要性 4.44 洞察度 3.00

修复 NixlConnector HMA 测试因 GPU 内存残留导致的 flaky 失败。

该 PR 是典型的测试稳定性修复，无需深入精读。值得关注的点： 1. 对于 flaky 测试，作者优先采用显式内存清理而非复杂重构，体现了务实策略。 2. 配置参数调整（如 `gpu_memory_utilization` 和 `max_num_batched_tokens`）展示了测试环境优化的常见手法。 3. 可作为处理类似内存残留问题的参考案例。

bugfixkv-connectortest

#40132 [xpu][rocm] Update `current_platform.supports_fp8()` for TritonExperts

原始 PR · 作者 ILikeIneine · 合并时间 2026-04-22 19:39

重构重要性 6.50 洞察度 5.00

统一 TritonExperts 中 FP8 支持的平台检测逻辑，简化代码并集中化检查。

该 PR 值得精读，以了解平台抽象化和统一接口的设计决策。关注 review 中提到的风险，并在后续 PR 中考虑改进。

rocmintel-gpurefactor

#40455 [Doc] Clarify supported keys for --speculative-config

原始 PR · 作者 Wangxiaoxiaoa · 合并时间 2026-04-22 19:36

文档重要性 3.82 洞察度 3.00

澄清 speculative decoding 中 --speculative-config 参数的文档，添加键值说明和示例。

对于使用 speculative decoding 的工程师和用户，此 PR 值得浏览以了解正确配置选项；关注设计决策如 CLI 命名约定和文档结构，但无需深入代码分析。

documentation

#35077 [Bugfix] LoRA for DeepSeek V3.2

原始 PR · 作者 HollowMan6 · 合并时间 2026-04-22 19:33

缺陷修复重要性 8.33 洞察度 6.00

修复 DeepSeek V3.2 中 LoRA 模块注册和权重后处理的回归问题。

该 PR 值得精读，特别是类型检查改为 `isinstance` 的设计决策和 LoRA 包装器解包逻辑，这些模式在支持模型子类时具有通用性。关注 `vllm/lora/layers/column_parallel_linear.py` 中的 `apply` 方法如何平衡自定义 forward 与 LoRA 增量应用。

bugfixdeepseek

#40428 [Bugfix][CPU][RISC-V] Clamp exp() input to prevent NaN

原始 PR · 作者 lyd1992 · 合并时间 2026-04-22 17:38

缺陷修复重要性 5.84 洞察度 4.00

修复RISC-V CPU上exp()因未钳制输入产生NaN的问题

此PR值得精读，尤其对于理解SIMD向量化中数值稳定性处理的团队。设计决策（采用与x86/ARM相同的钳制边界）降低了维护成本。建议后续添加针对exp()输出为FLT_MIN而非零的回归测试，确保边界行为被记录。

bugfixcpu

#39674 support hotwords for FunASR model

原始 PR · 作者 AllenDou · 合并时间 2026-04-22 17:25

功能重要性 6.77 洞察度 5.00

为 FunASR 模型添加热词支持

值得精读，尤其是如何通过 `SpeechToTextParams` 数据类统一传递模型参数，以及如何在 prompt 构造中动态注入用户输入。设计上避免了修改 `get_generation_prompt` 的函数签名，扩展性良好。

featurefrontendqwen

#40395 upgrade tpu-inference to v0.18.0

原始 PR · 作者 jcyang43 · 合并时间 2026-04-22 16:33

基础设施重要性 1.88 洞察度 1.00

升级 TPU 依赖版本至 v0.18.0

可快速合并，变更简洁明确。适合需要最新 TPU 推理库的用户。

ci/build

#40133 [Multimodal] Support custom video metadata for pre-extracted frame sequences

原始 PR · 作者 storyicon · 合并时间 2026-04-22 15:50

功能重要性 5.99 洞察度 5.00

支持客户端传递自定义视频元数据以保留时序信息

建议精读此 PR，特别是 `load_base64` 中的元数据传递模式，可作为多模态管道中客户端-服务器协作的参考。注意验证逻辑相对简单，生产使用前应补充更严格的校验和测试。

featuremulti-modalitydocumentation

第 140 / 253 页 · 共 2019 条

上一页 1 … 138 139 140 141 142 … 253 下一页