Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-28
缺陷修复 重要性 8.23 洞察度 6.00

修复 DeepSeek DSML 工具调用参数非增量流式问题

建议精读,因为展示了如何从缓冲式流式解析迁移到增量状态机,对实现其他 tool parser 的增量流式有借鉴意义。同时 schema 兼容性处理方式(`find_tool_properties` 统一处理多种工具类型)值得关注。测试用例设计良好,覆盖了核心边界。

缺陷修复 重要性 4.54 洞察度 3.00

恢复 WeightTransferConfig.backend 的 Literal 类型提示

该 PR 属于小型改进,评审已通过,可直接合并。值得关注的是 vLLM 使用 `Literal | str` 模式表示内置选项 + 扩展点的惯用做法。

重构 重要性 7.17 洞察度 2.00

移除 DSV4 NVIDIA 路径中的 AMD/XPU 分支

该 PR 值得快速合并,是良好的代码清理。设计上值得关注的点是:通过将 `_forward_cuda` 重命名为 `forward`,彻底消除了旧的条件分发逻辑,使 NVIDIA 路径的职责更清晰。

缺陷修复 重要性 3.80 洞察度 5.00

修复 SM12x 上 Marlin MoE 输出乱码

该 PR 值得精读,特别是 CUDA 架构标志管理和版本兼容性的模式(家族标志 vs 显式架构,以及版本门控)是 vLLM 构建系统中常见的实践。对于使用 Blackwell 硬件的团队,此修复是关键,建议尽快合入。

缺陷修复 重要性 4.53 洞察度 3.00

修复多API Server启动硬编码超时

此 PR 为简单的 Bugfix,解决了实际部署中遇到的超时问题。推荐快速合并并 cherry-pick 到 v0.22.0,因为问题已影响用户。同时关注 njhill 提出的启动序列重构,以彻底避免此类问题。

#43600 change name of fs_python secondary tier to fs.

原始 PR · 作者 rshavitt · 合并时间 2026-05-28 15:05

重构 重要性 4.81 洞察度 2.00

二级存储类型名 fs_python 改为 fs

建议合并,但必须在发布说明中明确标注配置键变更。如有大量外部用户,可考虑在 `factory.py` 中添加对旧名称 `fs_python` 的兼容映射。

功能 重要性 9.13 洞察度 6.00

Tilelang MHC 替换 Torch/Triton 并支持 ROCm

**建议阅读范围**:所有涉及 DeepSeek V4 推理优化、ROCm 支持、TileLang kernel 集成的工程师。 **关注点**: - `_tilelang_ops.py` 中平台条件编译和 PDL 设计,为跨平台 kernel 提供参考。 - `mhc.py` 中 HAS_TILELANG 调度模式,体现优雅降级策略。 - Review 中关于 warp size 和 eager CUDA 初始化的讨论,了解跨平台 kernel 常见陷阱。 - 测试文件 `test_mhc_kernels.py` 覆盖了 tilelang 和 torch 双路径验证,值得作为类似 PR 的测试模板。

#43830 minor docs: fix incorrect example path

原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-28 13:58

文档 重要性 1.35 洞察度 1.00

修复 Mooncake 文档中的错误示例路径

该 PR 已合并,无需额外操作。对于文档维护者,可留意类似路径问题并鼓励社区反馈。

参与讨论