EPD 编码器跨请求批处理图像/音频
建议精读 encode_server.py 中的 EncoderScheduler 设计,特别是积累窗口机制和预验证逻辑。值得关注的决策包括 tile 扩展适配、音频采样率修复、环境变量统一声明。如果需要扩展批处理到视频或其他模态,可参考此设计模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
EPD 编码器跨请求批处理图像/音频
建议精读 encode_server.py 中的 EncoderScheduler 设计,特别是积累窗口机制和预验证逻辑。值得关注的决策包括 tile 扩展适配、音频采样率修复、环境变量统一声明。如果需要扩展批处理到视频或其他模态,可参考此设计模式。
为Blackwell SM100添加CuTeDSL GDN预填充内核
建议Blackwell工作负载的用户启用 `--linear-attn-prefill-backend cutedsl` 以获取性能收益。开发者应重点关注 `gdn_cutedsl.py` 中的集成模式以及 `GDNKernelDispatcher` 的回退机制设计,这为后续添加其他后端提供了参考模式。同时,建议为 `extend()` 添加更多单元测试以增强鲁棒性。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-26 15:24
规范化工具参数中非标准 JSON Schema 类型映射
该 PR 设计清晰,测试完备,建议合并。后续可考虑: 1. 增加最大深度限制以防御堆栈溢出。 2. 将 `_PREFIX_BOUNDARY_CHARS` 与前缀规则文档化,供用户参考。 3. 在 CHANGELOG 中标注此兼容行为。
原始 PR · 作者 chengchao23 · 合并时间 2026-05-26 15:07
融合 kernel 优化 MoE FP4 后处理性能
该 PR 是典型的性能优化案例,展示了如何通过 kernel 融合减少 MoE 后处理开销。推荐精读 `cutlass_moe.py` 中的融合策略,以及对应的 `apply_shuffle_mul_sum` 内核实现。对于正在优化 MoE 推理的工程师有直接参考价值。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-26 14:54
AMD DSV4 压缩与注意力 Triton 内核融合优化
建议精读 fused kernel 的设计和 autotune 策略,尤其 `_should_use_fused_dual_scope` 的决策逻辑和基于 workload size 的分级 dispatch。对于涉及 online softmax 的 kernel,review 中的 NaN 修复模式值得推广。
修复 FA3 跨注意力对变长编码器的批处理支持
建议精读该 PR,尤其是 `init_forward_metadata` 中 fancy indexing 的构造方式。这是一个典型的注意力元数据构建 bug 修复,设计简洁,且验证充分,对于理解 SGLang 中跨注意力的批处理实现有很好的参考价值。
更新 CUDA 12 安装命令到文档
可直接合并,文档变更轻量且无副作用。建议后续维护者关注 cu129 索引 URL 是否正确指向 CUDA 12 包。
WNA16 MoE Marlin 工作空间复用优化
该 PR 是一个小而有效的性能优化,值得合并。建议关注 workspace 大小参数是否应可配置,以及是否可推广到其他 MoE 后端。
参与讨论