Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 07:21 同步状态：空闲下次计划：2026-06-01 08:21

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-27

#34520 [EPLB] Cleanup the transfer logic for the various eplb maps

原始 PR · 作者 SageMoore · 合并时间 2026-03-27 17:18

重构重要性 5.00 洞察度 5.00

重构EPLB映射提交逻辑，提取函数并添加单元测试，提升代码可维护性。

此PR值得精读，特别是对于关注分布式专家并行（EPLB）模块的工程师。建议关注提取函数的设计决策（如保持函数私有性）和错误处理（如反转逻辑的修复），这些体现了代码重构和团队协作的最佳实践。

refactortestcleanup

#36946 [P/D] Mooncake: Add unit tests and minor fixes for mooncake connector

原始 PR · 作者 dtcccc · 合并时间 2026-03-27 16:26

测试重要性 6.00 洞察度 5.00

为Mooncake连接器添加单元测试并修复请求错误处理中的双重发送问题。

建议工程师精读`test_mooncake_connector.py`文件以学习模拟复杂分布式交互的测试设计，并关注`mooncake_connector.py`中`wait_and_ret`函数的修改，理解错误处理逻辑的设计权衡和潜在风险。

testkv-connectorbugfix

#38322 [CI/Build] Move nightly wheel index generation to a single post-build step

原始 PR · 作者 Harry-Chen · 合并时间 2026-03-27 15:44

基础设施重要性 5.00 洞察度 4.00

将夜间wheel索引生成移至单个构建后步骤，消除并发构建竞赛条件。

建议工程师阅读此 PR 以理解 CI 流水线改进设计，特别是 allow_dependency_failure 的使用和分离关注点的实现。关注 review 中关于 robustness 的讨论，借鉴如何避免脆性脚本实践。对于维护构建基础设施的团队，此变更值得精读。

cicleanup

#38328 [Doc] Clarify Helm chart location in deployment guide

原始 PR · 作者 utsumi-fj · 合并时间 2026-03-27 15:43

文档重要性 1.00 洞察度 1.00

澄清Helm部署指南中chart位置，使用相对链接提升文档一致性。

此PR是简单的文档更新，无需深入阅读。对于工程师，可关注文档维护的最佳实践，如使用相对链接避免分支相关错误。

documentationcleanup

#38168 [Bugfix] Fix Hermes tool parser when stream interval > 1

原始 PR · 作者 sfeng33 · 合并时间 2026-03-27 14:42

缺陷修复重要性 6.00 洞察度 6.00

修复 Hermes 工具解析器在流式处理间隔大于 1 时的解析错误。

该 PR 值得精读，特别是新的 diff-based 解析策略，可用于理解和设计流式解析器。建议关注 `extract_tool_calls_streaming` 方法的实现，以及如何通过文本 diff 和状态追踪避免复杂状态机，同时留意测试用例以验证各种边界情况。

bugfixtool-callingrefactor

#34285 [Refactor] Move FusedMoE hidden_size roundup to quant_method

原始 PR · 作者 BowenBao · 合并时间 2026-03-27 14:38

重构重要性 6.00 洞察度 6.00

将 FusedMoE 层的 hidden_size 和 intermediate_size 对齐逻辑重构到 quant_method，提升架构清晰度和性能。

建议工程师精读此 PR 以理解量化方法在尺寸对齐中的新角色，关注 mxfp4.py 和 quark_moe.py 中的实现差异，以及讨论中关于性能权衡的决策。

refactorrocmquantization

#38320 [CI] Add xpu auto-label rule for Intel GPU/XPU PRs

原始 PR · 作者 wendyliu235 · 合并时间 2026-03-27 14:22

基础设施重要性 3.00 洞察度 2.00

为 Intel GPU/XPU 相关 PR 添加自动标签规则。

对于 CI 维护者和对 Intel XPU 支持感兴趣的工程师，建议浏览以了解新标签规则；对于其他工程师，无需深入阅读。

cixpu

#38219 [CPU] Support CT W4A16 on CPU MP kernel

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-03-27 14:15

功能重要性 6.00 洞察度 5.00

在CPU混合精度线性内核中支持CT W4A16量化格式。

建议工程师精读此PR，重点关注`_process_gptq_weights`函数中的CT格式检测和转置逻辑，以及内存优化讨论。对于技术管理者，值得了解量化支持的扩展方向，并跟踪内存风险的处理进展。

cpuquantizationfeature

第 228 / 253 页 · 共 2021 条

上一页 1 … 226 227 228 229 230 … 253 下一页