Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 14:51 同步状态：空闲下次计划：2026-05-31 15:51

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-16

#39524 [Refactor] Remove `resampy` dependency

原始 PR · 作者 Isotr0py · 合并时间 2026-04-16 23:48

重构重要性 6.71 洞察度 5.00

移除 resampy 音频重采样依赖，默认改用 pyav 方法以提升性能。

该 PR 值得精读，以了解依赖清理和性能优化的实践。重点关注 `AudioResampler` 类的设计决策，以及如何处理可选依赖的运行时错误和兼容性权衡。

refactormulti-modality

#39706 [Misc] `toy_proxy_server` handle min_tokens

原始 PR · 作者 NickLucche · 合并时间 2026-04-16 23:08

缺陷修复重要性 4.18 洞察度 3.00

修复 toy_proxy_server 处理 min_tokens 参数时因 P 服务不支持而导致的验证崩溃。

该 PR 变更简单直接，适合快速了解测试工具中参数传递的兼容性处理。值得关注的设计决策是选择显式保存和重新添加参数值，而非直接 `pop` 丢弃，这可能反映了对 D 服务参数需求的明确假设。

kv-connectortest

#40011 [Bugfix] Fix LLM priority normalization for single-string prompts

原始 PR · 作者 daiyu1111 · 合并时间 2026-04-16 22:56

缺陷修复重要性 5.03 洞察度 4.00

修复单字符串提示词场景下LLM优先级归一化错误，避免有效优先级列表被误拒。

该PR值得快速浏览，以了解前端API中一个常见的边界条件bug及其修复模式。关注点在于`prompt_to_seq`归一化函数的使用场景，以及如何确保后续逻辑（如优先级、LoRA请求）都基于归一化后的序列长度进行计算，避免类似错误。

bugfixfrontend

#39675 [Frontend][last/5] Improve pooling entrypoints | clean up.

原始 PR · 作者 noooop · 合并时间 2026-04-16 22:53

重构重要性 9.00 洞察度 6.00

重构 pooling 入口点，集中工厂函数并清理导入，提升内聚性。

该 PR 值得精读，尤其是关注工厂模式在入口点模块中的应用，以及如何通过集中逻辑实现解耦。设计决策包括：将 pooling 和 generate 任务的调用类型分离到独立工厂，使用相对导入提升内聚性。建议工程师学习这种重构方法，以优化大型代码库的组织。

documentationfrontendcleanup

#39736 [Doc] add docs for online quant frontend

原始 PR · 作者 vkuzo · 合并时间 2026-04-16 22:52

文档重要性 3.33 洞察度 4.00

新增在线量化功能文档，说明FP8量化方案及高级配置。

该PR是纯文档更新，对于想了解或使用vLLM在线量化功能的用户和开发者值得一读。重点关注文档中关于 `quantization` 和 `quantization_config` 参数的正确用法，以及高级配置如 `linear_scheme_override`、`moe_scheme_override` 和 `ignore` 列表的示例。这些设计决策反映了在线量化前端的灵活性和可配置性。

documentationquantization

#39966 [CI/Build] Improve stability of CPU tests

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-04-16 21:50

基础设施重要性 4.80 洞察度 3.00

优化CPU测试稳定性，调整测试标记、编译配置和CI并行度。

该PR主要涉及测试和CI配置调整，对于关注CPU平台测试稳定性和CI流水线优化的工程师值得快速浏览。重点关注 `vllm/platforms/cpu.py` 中编译配置的变更，理解 `ir_enable_torch_wrap` 设置对CPU推理性能的潜在影响。

cpucitest

#39888 [Model] Use mm_features to compute mrope positions for PaddleOCR-VL

原始 PR · 作者 grYe99 · 合并时间 2026-04-16 21:14

重构重要性 8.26 洞察度 6.00

重构PaddleOCR-VL模型的M-RoPE位置计算，改用mm_features驱动。

该PR值得精读，关注iter_mm_grid_thw迭代器设计如何简化复杂位置计算，以及测试策略如何覆盖多模态场景，可作为类似重构的范例。

modelrefactormulti-modality

#39944 [Kernel][Helion] Fix inductor fusion of Helion HOP

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-16 19:41

缺陷修复重要性 6.69 洞察度 6.00

修复Helion kernel在TorchInductor融合编译时的错误，通过委托给Helion的Dynamo handler。

对于从事Helion集成或Torch编译优化的工程师，此PR值得精读，重点关注_register_vllm_helion_dynamo_variable函数中的委托逻辑设计决策。

rocmbugfixkernel

第 161 / 253 页 · 共 2020 条

上一页 1 … 159 160 161 162 163 … 253 下一页