重构在线服务文档,拆分旧 OpenAI 指南到多页
对于文档维护者和用户,建议仔细阅读 `docs/serving/online_serving/README.md` 了解新组织方式。贡献者添加新在线 API 时应遵循本 PR 确立的目录和命名规范,并更新 `docs/.nav.yml` 和 `mkdocs.yaml` 的重定向映射。
A high-throughput and memory-efficient inference and serving engine for LLMs
重构在线服务文档,拆分旧 OpenAI 指南到多页
对于文档维护者和用户,建议仔细阅读 `docs/serving/online_serving/README.md` 了解新组织方式。贡献者添加新在线 API 时应遵循本 PR 确立的目录和命名规范,并更新 `docs/.nav.yml` 和 `mkdocs.yaml` 的重定向映射。
原始 PR · 作者 taneem-ibrahim · 合并时间 2026-05-19 14:16
tokwise 与 seqwise pooler 一致性对齐
值得快速合并。该 PR 清理了小但影响一致性的技术债务,提升了代码质量和可维护性。开发者若使用 tokwise pooler 相关 API,可留意新增的导出符号。
原始 PR · 作者 chaojun-zhang · 合并时间 2026-05-19 14:15
XPU 通信层启用自定义 op collective
值得关注本 PR 中关于 `_ENABLE_CUSTOM_ALL_REDUCE` 与通信 group 类型耦合的设计决策,但遗留的 DP/PP group 风险建议在后续 PR 中跟进修复。
原始 PR · 作者 gracie-guo · 合并时间 2026-05-19 13:50
为 pooling models 文档添加 SVG 说明图片
- 该 PR 适合作为文档改进的参考案例,展示了如何利用 SVG 图片提升技术文档的可视化效果。 - 对于希望贡献文档的开发者,可以学习其资产组织方式和与 Markdown 的集成方法。 - 无需精读代码,但值得快速浏览图片设计以了解 pooling 模型的关键概念。
修复 Qwen3-VL MoE 权重加载关键字参数
该 PR 为小范围 bugfix,变更简单直接,建议合入。值得关注的是,后续类似权重加载调用应统一使用关键字参数,以避免未来接口变更导致的兼容性问题。
28个CI测试从gpu_1_queue迁移到h200_35gb
建议跟进清理`misc.yaml`中的遗留`gpu: h100`字段,避免后续冲突。此外,可考虑对类似的配置进行统一审查,确保硬件分配清晰。
修复 SimpleCPUOffloadScheduler TOCTOU 竞争导致断言崩溃
该 PR 修复了关键的 TOCTOU bug,设计清晰(pin + 缓存),并包含高质量回归测试。建议调度器相关开发者精读,理解在异步 offload 路径中保持 block 一致性的手法。对于非该模块的开发者,可略读但值得了解此类竞争模式的修复方式。
为 DeepSeek V4 索引器添加 CuTe DSL FP8 内核
值得精读,尤其关注基类抽象(IndexerQRopeQuantKernel)的设计:它通过 subwarp 布局和 coarsen 灵活适配不同量化精度,为未来添加新量化格式提供模板。同时,CuTe DSL 与 Triton 的混合使用方式也值得学习。
参与讨论