#27451 Classify malformed-multimodal rejects as invalid_request
原始 PR · 作者 merrymercy · 合并时间 2026-06-07 01:19
结构化多模态错误响应与客户端断开处理
值得精读,展示了如何通过异常分层与请求状态检查来提升 API 的健壮性和客户端体验。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 merrymercy · 合并时间 2026-06-07 01:19
结构化多模态错误响应与客户端断开处理
值得精读,展示了如何通过异常分层与请求状态检查来提升 API 的健壮性和客户端体验。
修复 LingBot-World 相机控制崩溃
值得合并。这是一个短小、精确的 bugfix,修复了阻断性崩溃,且改动量小、风险可控。建议后续补充多 GPU 实时测试。
用 torch.stack 替换 torch.tensor 避免 GPU 同步
值得精读,尤其关注如何在推理框架中通过简单代码替换消除隐式 GPU-CPU 同步。建议后续考虑采纳 reviewer 的 `torch.ones_like` 简化建议。
新增 torch_npu 补丁 API 兼容层并更新调用方
建议 NPU 相关开发者阅读,该 PR 展示了如何平滑处理上游库的 API 漂移,并提供了可复用的兼容函数。单元测试覆盖了三种场景,值得参考。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-06 20:12
修复 Eagle 采样信息 deepcopy 导入错误
此 PR 改动较小,但修复了一个运行时异常,建议尽快合并。开发者可了解 import 方式对命名空间的影响。
原始 PR · 作者 OrangeRedeng · 合并时间 2026-06-06 20:06
更新 NPU 文档与 CI/Docker 配置以支持软件版本升级
该 PR 属于常规文档和配置更新,无需要重点关注的技术决策。NPU 相关开发者和用户可阅读了解最新版本要求。
修复KV校验测试因Radix缓存去重导致的flaky问题
值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。
在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置
值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。
参与讨论