Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 09:45 同步状态:空闲 下次计划:2026-06-04 10:45

PR 列表

更多筛选
2026-05-12
缺陷修复 重要性 4.67 洞察度 5.00

修复 starcoder2-3b 测试 flaky 问题

值得精读。这是一个典型的因浮点精度差异导致的测试 flaky 修复方案:通过调整输入 prompt 使模型输出更稳定,而非放宽测试断言。体现了对问题根源的跟踪和分析。

基础设施 重要性 5.32 洞察度 4.00

调整发布流水线顺序,构建完成后统一发布

该 PR 改动安全且必要,建议合并。后续可单独处理 gemini-code-assist 提出的 nightlty 条件过滤建议,进一步提升 nightly 自动化程度。

基础设施 重要性 4.05 洞察度 3.00

最后3个B200任务迁移至b200-k8s队列

该 PR 为纯 CI 基础设施变更,生产代码无改动,重要性较低,无需精读。但建议关注 review 中提到的 `source_file_dependencies` 缺失问题,应在后续 PR 中补全,避免回归检测盲区。同时,DeepSeek MTP 测试在 Blackwell 上的持续失败需要进一步调查,可能需提交单独 bugfix 或彻底禁用该测试。

缺陷修复 重要性 7.62 洞察度 3.00

修复 /v1/responses 中 function_call_output 缺失 channel/recipient

建议尽快合并并发布,因为该修复直接提升 gpt-oss 等依赖 responses API 的工具调用准确率。开发者可关注后续 `reasoning` 分支健壮性改进以及测试文件合并建议。

缺陷修复 重要性 5.82 洞察度 5.00

修复 FlashInfer NVLink 双 reduce 精度问题

此 PR 虽改动极小(两行代码),但修复了严重的精度问题,值得所有使用 FlashInfer NVLink 后端的用户合入。开发者在升级 FlashInfer 版本时需重新测试该兼容性契约。

#42356 [CI] Migrate more B200 jobs to b200-k8s queue

原始 PR · 作者 khluu · 合并时间 2026-05-12 15:38

基础设施 重要性 3.29 洞察度 2.00

迁移 4 个 B200 CI 任务到新 k8s 队列

该 PR 属常规基础设施迁移,技术复杂度低。建议关注后续 PR #42387 中剩余 3 个任务的迁移和测试修复。

重构 重要性 9.00 洞察度 5.00

合并与整理语音转文本入口点,将代码独立到 speech_to_text 包

值得阅读以了解入口点分离的设计模式,特别是 `factories.py` 的集中注册思路。可以学习如何通过包组织来管理多个端点。

参与讨论