#20039 [Bugfix] Work around FlashInfer unified transport issue on GB
作者 mmangkad · 合并时间 2026-03-23 12:10
临时修复 FlashInfer 统一传输在 GB 平台导致数据损坏的问题。
该 PR 值得精读,尤其关注上下文管理器设计和平台检测逻辑,展示了临时工作区的优雅实现方式。建议工程师学习其异常处理和环境集成的最佳实践,同时注意临时方案的移除时间点。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 mmangkad · 合并时间 2026-03-23 12:10
临时修复 FlashInfer 统一传输在 GB 平台导致数据损坏的问题。
该 PR 值得精读,尤其关注上下文管理器设计和平台检测逻辑,展示了临时工作区的优雅实现方式。建议工程师学习其异常处理和环境集成的最佳实践,同时注意临时方案的移除时间点。
作者 BBuf · 合并时间 2026-03-23 12:08
扩展denoise latency解析逻辑以支持模型特定的DenoisingStage变体,提升benchmark兼容性。
该PR值得快速浏览以了解latency解析的灵活性改进。关注字符串匹配的设计决策,以及潜在的多匹配风险。
作者 fanghao566 · 合并时间 2026-03-23 10:58
修复启用指标时非流式请求中止失效的bug,通过修补中间件保持ASGI receive传递。
推荐精读此PR,特别是`_PureASGIDispatch`的设计,以了解如何处理ASGI中间件的receive传递问题,并关注测试策略从集成到单元的演变,体现了优化测试效率的实践。
作者 yuumn · 合并时间 2026-03-23 10:27
添加FireRed-Image-Edit模型支持,解决配置差异问题。
该PR值得精读,了解如何通过配置适配扩展新模型支持,重点关注token ID字段的添加和注册逻辑的设计决策。
作者 Cishoon · 合并时间 2026-03-23 08:07
修复在启用重叠调度和结构化输出时的VRAM泄漏问题。
建议工程团队精读此PR,重点关注闭包环境下GPU张量生命周期的管理策略,可作为异步调度中内存优化的参考案例。
作者 happierpig · 合并时间 2026-03-23 08:06
通过padding max-num-requests避免CUDA graph捕获中被过滤,提升性能覆盖范围。
建议精读以理解CUDA graph捕获中的padding策略和性能优化技巧,重点关注get_batch_sizes_to_capture函数的改动,对于涉及图形捕获的开发者有参考价值。
作者 zianglih · 合并时间 2026-03-23 02:17
集成 FlashInfer v0.6.6 的 bf16 routed moe 支持,完善 MXFP8 RL 训练后端。
建议精读此 PR,关注量化后端集成设计(如 `flashinfer_trtllm.py` 中的路由逻辑)和权重形状恢复机制(如 `unquant.py` 中的方法),这些决策对处理混合精度权重更新有借鉴价值。
作者 BBuf · 合并时间 2026-03-22 22:38
清理扩散Triton内核,移除死代码并现代化自定义操作注册。
建议技术管理者和工程师精读本PR,重点关注norm.py中自定义操作注册的现代化设计决策,以及scale_shift.py中死代码移除的合理性评估。对于review中未解决的代码重复问题,可考虑后续PR进行重构。
参与讨论