Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 22:49 同步状态:空闲 下次计划:2026-06-13 23:49

PR 列表

更多筛选
2026-05-19

#41907 [Docs] Reorganize online serving docs.

原始 PR · 作者 noooop · 合并时间 2026-05-19 14:43

文档 重要性 5.70 洞察度 4.00

重构在线服务文档,拆分旧 OpenAI 指南到多页

对于文档维护者和用户,建议仔细阅读 `docs/serving/online_serving/README.md` 了解新组织方式。贡献者添加新在线 API 时应遵循本 PR 确立的目录和命名规范,并更新 `docs/.nav.yml` 和 `mkdocs.yaml` 的重定向映射。

重构 重要性 5.72 洞察度 4.00

tokwise 与 seqwise pooler 一致性对齐

值得快速合并。该 PR 清理了小但影响一致性的技术债务,提升了代码质量和可维护性。开发者若使用 tokwise pooler 相关 API,可留意新增的导出符号。

#41354 [XPU] Use custom op collective behavior

原始 PR · 作者 chaojun-zhang · 合并时间 2026-05-19 14:15

重构 重要性 5.32 洞察度 4.00

XPU 通信层启用自定义 op collective

值得关注本 PR 中关于 `_ENABLE_CUSTOM_ALL_REDUCE` 与通信 group 类型耦合的设计决策,但遗留的 DP/PP group 风险建议在后续 PR 中跟进修复。

#42626 [Docs] Add SVG images for pooling models.

原始 PR · 作者 gracie-guo · 合并时间 2026-05-19 13:50

文档 重要性 5.38 洞察度 2.00

为 pooling models 文档添加 SVG 说明图片

- 该 PR 适合作为文档改进的参考案例,展示了如何利用 SVG 图片提升技术文档的可视化效果。 - 对于希望贡献文档的开发者,可以学习其资产组织方式和与 Markdown 的集成方法。 - 无需精读代码,但值得快速浏览图片设计以了解 pooling 模型的关键概念。

基础设施 重要性 4.10 洞察度 2.00

28个CI测试从gpu_1_queue迁移到h200_35gb

建议跟进清理`misc.yaml`中的遗留`gpu: h100`字段,避免后续冲突。此外,可考虑对类似的配置进行统一审查,确保硬件分配清晰。

缺陷修复 重要性 7.33 洞察度 6.00

修复 SimpleCPUOffloadScheduler TOCTOU 竞争导致断言崩溃

该 PR 修复了关键的 TOCTOU bug,设计清晰(pin + 缓存),并包含高质量回归测试。建议调度器相关开发者精读,理解在异步 offload 路径中保持 block 一致性的手法。对于非该模块的开发者,可略读但值得了解此类竞争模式的修复方式。

#42899 add cutedsl dsv4 indexer fp8 kernel

原始 PR · 作者 gnovack · 合并时间 2026-05-19 12:17

性能优化 重要性 6.60 洞察度 7.00

为 DeepSeek V4 索引器添加 CuTe DSL FP8 内核

值得精读,尤其关注基类抽象(IndexerQRopeQuantKernel)的设计:它通过 subwarp 布局和 coarsen 灵活适配不同量化精度,为未来添加新量化格式提供模板。同时,CuTe DSL 与 Triton 的混合使用方式也值得学习。

参与讨论