Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 03:14 同步状态：空闲下次计划：2026-06-01 04:14

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-08

#37025 [CI] Add reasoning parser tests to CI

原始 PR · 作者 sfeng33 · 合并时间 2026-04-08 08:57

基础设施重要性 4.00 洞察度 4.00

将推理解析器测试添加到CI流水线，并暂时忽略已知失败测试。

这是一个简单的CI变更，无需精读代码。值得关注的是讨论中关于pytest路径和工作目录的决策（反映CI环境细节），以及优先合并以保护通过测试的策略（平衡及时保护与问题延迟处理）。

citest

#39085 docs: clarify SMT and OMP acronyms in CpuPlatform

原始 PR · 作者 MekayelAnik · 合并时间 2026-04-08 08:42

文档重要性 1.00 洞察度 2.00

澄清CpuPlatform类注释中SMT和OMP缩写的含义，提升代码可读性。

该PR变更简单，无需精读。对于关注CPU平台实现或文档规范的开发者，可以关注review中关于架构枚举完整性的讨论，这体现了在文档中避免硬编码具体值的良好实践。

documentationcpu

#38496 [Model Runner V2] Fuse probabilistic rejection sample kernels

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-08 08:37

性能优化重要性 9.18 洞察度 7.00

融合概率性拒绝采样内核，优化内存分配并消除softmax，提升推测解码性能。

建议核心工程师精读`probabilistic_rejection_sampler_utils.py`中的Triton内核实现，关注`_compute_block_max_and_sumexp`和`_probabilistic_rejection_kernel`的设计，以学习内核融合和数值稳定性优化技巧；同时，查看测试文件中的卡方检验方法，了解如何验证采样分布正确性。

speculative-decodingperformancerefactor

#38682 [XPU] add xpu backend implementation of mxfp8 quant

原始 PR · 作者 zufangzhu · 合并时间 2026-04-08 08:30

功能重要性 6.00 洞察度 5.00

新增 XPU 后端对 MXFP8 量化的支持，为 Intel GPU 提供 FP8 量化路径。

该 PR 值得精读，特别是关注量化操作的平台调度设计和 fake 实现的兼容性修复。对从事跨平台量化开发或后端扩展的工程师有参考价值，可学习自定义操作集成和 review 中的设计权衡。

xpuquantizationfeature

#39125 [Attention][V0 Deprecation] Deprecate accept output buffer

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-08 05:14

重构重要性 5.00 洞察度 5.00

移除 V0 遗留的 accept_output_buffer 标志，统一 V1 注意力操作输出缓冲区处理。

建议精读此 PR，因为它展示了从 V0 到 V1 的弃用模式和输出缓冲区标准化设计。重点关注 `attention.py` 中的逻辑简化，以及 review 讨论中关于代码集中化的技术洞察。

attentionrefactorcleanup

#39160 [Bugfix] Fix extract_hidden_states crash with quantized KV cache dtype

原始 PR · 作者 yubofredwang · 合并时间 2026-04-08 02:18

缺陷修复重要性 5.00 洞察度 4.00

修复量化KV缓存类型下提取隐藏状态模型崩溃问题。

该PR值得快速浏览，关注点：1. 使用dataclasses.replace处理不可变配置的设计模式。2. is_quantized_kv_cache工具函数的应用场景。3. 理解隐藏状态缓存与KV缓存数据类型的分离设计。

bugfixmodelquantization

#38860 [Parser] Pass request.tools to tool parser

原始 PR · 作者 sfeng33 · 合并时间 2026-04-08 01:36

缺陷修复重要性 4.00 洞察度 3.00

修复非流式Responses API中工具调用解析器缺少tools参数的问题。

该PR值得快速浏览以理解工具调用解析器参数传递的修复机制。重点关注_WrappedParser构造函数的设计决策：作者选择明确的参数列表而非可变参数，体现了对API清晰性的偏好。对于负责Responses API或工具调用功能的工程师，需要确保后续相关代码遵循相同的参数传递模式。

frontendtool-callingresponses-api

#36993 [CI][Bugfix][AMD][ Ensure weights created when using emulating OCP MXFP4

原始 PR · 作者 rasmith · 合并时间 2026-04-08 00:37

缺陷修复重要性 4.00 洞察度 5.00

修复AMD仿真OCP MXFP4量化时权重创建错误，解决测试失败。

建议量化或ROCm相关工程师阅读此PR，关注`process_weights_after_loading`方法的逻辑调整，了解仿真模式下权重处理的正确实践。

bugfixrocmquantization

第 193 / 253 页 · 共 2020 条

上一页 1 … 191 192 193 194 195 … 253 下一页