添加FireRed-Image-Edit模型支持,解决配置差异问题。
该PR值得精读,了解如何通过配置适配扩展新模型支持,重点关注token ID字段的添加和注册逻辑的设计决策。
SGLang is a high-performance serving framework for large language models and multimodal models.
添加FireRed-Image-Edit模型支持,解决配置差异问题。
该PR值得精读,了解如何通过配置适配扩展新模型支持,重点关注token ID字段的添加和注册逻辑的设计决策。
修复在启用重叠调度和结构化输出时的VRAM泄漏问题。
建议工程团队精读此PR,重点关注闭包环境下GPU张量生命周期的管理策略,可作为异步调度中内存优化的参考案例。
原始 PR · 作者 happierpig · 合并时间 2026-03-23 08:06
通过padding max-num-requests避免CUDA graph捕获中被过滤,提升性能覆盖范围。
建议精读以理解CUDA graph捕获中的padding策略和性能优化技巧,重点关注get_batch_sizes_to_capture函数的改动,对于涉及图形捕获的开发者有参考价值。
集成 FlashInfer v0.6.6 的 bf16 routed moe 支持,完善 MXFP8 RL 训练后端。
建议精读此 PR,关注量化后端集成设计(如 `flashinfer_trtllm.py` 中的路由逻辑)和权重形状恢复机制(如 `unquant.py` 中的方法),这些决策对处理混合精度权重更新有借鉴价值。
清理扩散Triton内核,移除死代码并现代化自定义操作注册。
建议技术管理者和工程师精读本PR,重点关注norm.py中自定义操作注册的现代化设计决策,以及scale_shift.py中死代码移除的合理性评估。对于review中未解决的代码重复问题,可考虑后续PR进行重构。
更新 SGLang 测试编写指南,新增单元测试专用指导和模板。
该 PR 值得测试开发者和文档维护者精读,以了解 SGLang 测试框架的最新最佳实践。关注点包括单元测试与集成测试的分离、CI 套件选择规则,以及 review 中提到的文档对齐问题。
优化SM120 FP8 GEMM kernel,通过pingpong schedule提升小M性能。
建议技术管理者关注此PR,因为它展示了性能优化的实际收益和硬件特定调优。工程师值得精读代码,学习基于运行时条件的schedule选择策略和CUTLASS集成最佳实践。
添加SGLang CUDA崩溃API日志记录功能,用于调试LLM和扩散内核调用边界。
建议技术管理者和工程师精读本PR,重点关注以下方面: - **设计决策**:`python/sglang/kernel_api_logging.py`中的装饰器实现,如何集成环境变量控制和dump生成,值得学习可配置调试系统设计。 - **代码优化**:自动推断op名称的机制,减少手动维护,展示Python装饰器高级用法。 - **review洞察**:讨论中的命名约定和类型友好性改进,提供了软件工程最佳实践案例。
参与讨论