Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 03:31 同步状态:空闲 下次计划:2026-05-31 04:31

PR 列表

更多筛选
2026-04-25
缺陷修复 重要性 5.50 洞察度 5.00

修复 TORCH_COMPILE_DISABLE 环境变量未被 vLLM 配置层尊重的问题

该 PR 是典型的“上游依赖行为变更引发下游适配”场景,值得关注。虽然变更量小,但体现了对上游 PyTorch 变化的快速响应和正确性判断。`TORCH_COMPILE_DISABLE` 环境变量检查的实现方式(严格匹配 `== "1"`)是很好的实践,值得在其他类似环境变量处理中推广。建议合并。

缺陷修复 重要性 6.60 洞察度 6.00

修复 EPLB 路由副本选择偏差

值得精读。该 PR 展示了一个典型的负载均衡边界问题及其巧妙解决方案—— Knuth 乘法哈希。对于关注 MoE 推理优化的工程师,代码注释清晰,测试设计有针对性,是学习 Triton kernel 开发和负载均衡策略的好范例。

缺陷修复 重要性 4.55 洞察度 6.00

修复 RMSNorm 测试中残差张量形状不匹配问题

值得精读,这是一个典型的内存越界导致 flaky 测试的案例。PR 作者提供了详细的复现脚本和根因分析,对理解 CUDA 内存分配和测试编写有借鉴意义。建议阅读 PR body 中的复现脚本以加深理解。

#40763 [Bug] Fix GLM-5.1 running error on ROCm platform

原始 PR · 作者 qli88 · 合并时间 2026-04-25 03:54

缺陷修复 重要性 7.24 洞察度 5.00

修复 GLM-5.1 在 ROCm 上的 MLA 头部填充问题

该 PR 值得仔细阅读,特别是 AiterMLAHelper 类的设计——将特定后端的特殊需求集中管理,避免散落在各个 forward 方法中。建议未来在 AITER 上游修复后及时移除 workaround(参见代码中的 TODO)。

基础设施 重要性 4.45 洞察度 3.00

支持 Python 3.14 构建

建议合并,因为这是支持新 Python 版本的必要步骤,且已通过基础测试验证。但需在 Python 3.14 稳定发布后完善 CI 覆盖和分布式支持。

重构 重要性 7.01 洞察度 5.00

vLLM CLI 支持 --omni 参数委托给 vLLM Omni

值得精读,尤其是关注 CLI 入口点设计和避免包冲突的技术决策;也可作为多包协作时“显式委托替代 hijack”的范例。建议后续补充测试,并跟踪插件机制的演进。

2026-04-24

参与讨论