移除 NSA 分段路径中冗余的 DeepGEMM 依赖
该 PR 改动简洁且正面,值得合并。代码风格清晰,注释充分。建议阅读者关注 `torch.mm` 的 `out_dtype` 用法,这是 PyTorch 2.10 的新特性。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除 NSA 分段路径中冗余的 DeepGEMM 依赖
该 PR 改动简洁且正面,值得合并。代码风格清晰,注释充分。建议阅读者关注 `torch.mm` 的 `out_dtype` 用法,这是 PyTorch 2.10 的新特性。
按数据流角色重组批量数据结构字段声明
建议所有涉及推理调度和模型执行的开发者快速浏览此 PR,以了解 `ScheduleBatch` 和 `ForwardBatch` 的新分组约定。该约定有助于在后续开发中保持字段组织一致性,避免随意添加字段。
MXFP8量化启用Cute-DSL后端,SM100加速
该PR变更小、风险低,但为Blackwell GPU带来了重要的性能优化,建议合并并跟踪后续性能基准数据。
新增 FlashInfer 自调优缓存开关环境变量
推荐合并。代码简洁、逻辑清晰,无回归风险。该功能为开发者工具,默认不影响生产。可进一步考虑增加单元测试验证环境变量的行为。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-28 14:31
恢复并改进工具参数 JSON Schema 类型归一化
此 PR 解决了工具模式验证中的一个实际兼容性问题,值得合并。建议关注后续可能出现的边缘类型处理请求。
修复 ROCm Dockerfile 中 AITER git checkout 失败
建议快速合并。这是一个清晰的 Docker 构建修复,根因定位准确,改动量极小。
修复 hash 类型不匹配导致 Mooncake 缓存失效
该 PR 是典型的接口类型不匹配 bugfix,逻辑简单直接,适合快速合入。建议阅读以了解多模态缓存与 Mooncake 的集成点。
原始 PR · 作者 yctseng0211 · 合并时间 2026-05-28 14:05
修复 AMD AITER 检出失败问题
值得合并,修复明确、风险低。但建议关注 AITER 上游是否彻底迁移 CSV 到 LF,届时可恢复为普通 checkout 以保留额外安全保护。
参与讨论