#18174 [Bugfix] Catch errors when DeepSeek-V3.2 generates malformed JSON
作者 Muqi1029 · 合并时间 2026-03-03 16:10
修复DeepSeek-V3.2工具调用JSON解析错误,确保流式输出稳定。
建议开发者在处理类似错误时,考虑捕捉所有可能异常类型以增强健壮性。此PR值得快速浏览以了解错误处理模式,但需注意讨论中提出的未解决疑虑。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 Muqi1029 · 合并时间 2026-03-03 16:10
修复DeepSeek-V3.2工具调用JSON解析错误,确保流式输出稳定。
建议开发者在处理类似错误时,考虑捕捉所有可能异常类型以增强健壮性。此PR值得快速浏览以了解错误处理模式,但需注意讨论中提出的未解决疑虑。
作者 BBuf · 合并时间 2026-03-03 08:15
回滚PR 18619以修复扩散模型中torch compile图捕获问题,恢复推理性能。
该PR值得精读,因为它展示了性能回归修复的典型场景和代码回滚的决策。关注点包括:并行线性层变更的设计权衡、forward方法中输出处理的正确性、以及如何避免类似健壮性问题。建议团队后续验证并行性能并修复review中提及的问题。
作者 b8zhong · 合并时间 2026-03-01 17:59
优化 NSA 后端元数据生成逻辑,提升推测解码场景下的 GPU 性能。
建议关注新 Triton 内核 `seqlens_expand_triton` 的设计,以及如何将 CPU 端逻辑迁移到 GPU 以提升性能。该 PR 值得精读,学习 GPU 优化技巧和推测解码下的元数据处理策略。
作者 ZiguanWang · 合并时间 2026-02-27 03:50
通过调优 fused_moe_triton 内核并添加 int4_w4a16 支持,显著提升 Kimi K2.5 模型在 AMD 硬件上的性能。
建议工程师精读此 PR,特别是关注 int4_w4a16 量化支持的具体实现(如权重初始化和尺度计算)和调优配置的选取策略,这对高性能计算和量化优化有参考价值。
作者 silencejade · 合并时间 2026-02-25 09:16
修改MultiPlatformOp中forward_npu方法默认调用原生实现以支持NPU模型。
建议阅读此PR以理解MultiPlatformOp中平台特定方法的默认实现模式,关注设计决策:在兼容性和性能之间的平衡。对于从事NPU或多平台开发的工程师,这是一个基础但重要的变更,值得学习如何通过基类修复影响广泛的兼容性问题。
参与讨论