新增 LingBot 实时 WebUI 前端,支持实时视频流交互
该 PR 展示了前端 WebUI 的良好架构设计,特别是 decoder_worker 使用 Web Worker 分离解码逻辑,以及丰富的预设数据管理。值得前端和后端开发者阅读,理解多模态生成场景下的实时视频流交互模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
新增 LingBot 实时 WebUI 前端,支持实时视频流交互
该 PR 展示了前端 WebUI 的良好架构设计,特别是 decoder_worker 使用 Web Worker 分离解码逻辑,以及丰富的预设数据管理。值得前端和后端开发者阅读,理解多模态生成场景下的实时视频流交互模式。
新增 LingBot World 实时扩散管道与 WebUI 支持
此 PR 属于里程碑级功能合并,架构设计值得精读:特别是 `CausalSelfAttentionKVCache` 的抽象和 `CausalDMDDenoisingStage` 的通用化处理。对于参与 diffusion 或实时推理的开发者,建议重点阅读 `causal_denoising.py`、`causal_attention_cache.py` 和 `lingbot_world.py`,了解因果视频生成的流水线设计。对于仅使用批处理推理的用户,此 PR 无直接影响,但未来可复用其基础架构。
修复 forward_batch_info 循环导入问题
值得快速合入并关注。这类细粒度导入治理能预防后续类似问题,建议团队在代码审查中持续关注导入层级。
DeepSeek V4 SWA 位置缓存优化
建议仔细审查缓存失效逻辑的鲁棒性,尤其是 `start_layer` 假设和并发场景。推荐在合并前补充单元测试,验证不同层执行顺序和并发情况下的缓存行为。作者不需要对 PR 做额外操作。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-06-02 13:30
修复 AMD ROCm AITER 上 GPT-OSS MXFP4 精度错误
本 PR 展示了系统性的精度调试过程,涉及跨栈的权重布局、kernel dispatch 和属性传播问题。建议团队内对涉及 AITER MXFP4 的后续开发仔细审查 `is_shuffled` 标志的传播和 GateMode 配置。值得精读,尤其是在理解量化内核集成和平台适配方面。
将 Frozen-KV MTP 辅助种子步骤融合到捕获的草稿 CUDA 图中
该 PR 值得精读,特别是了解如何将 eager forward 步骤融合到现有的 CUDA 图中以减少 kernel launch 开销。设计思路(将第一轮迭代纳入循环)可推广到其他类似场景。
为 Kimi-K2.5-w4a8 新增 Ascend NPU 最佳实践文档
值得精读,特别是需要在 NPU 上部署 Kimi K2.5 的用户。重点关注低延迟与高吞吐配置的差异,并注意表格与命令的卡数一致性。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-02 13:07
更新 CODEOWNERS 添加内存分配器负责人
该 PR 为基础设施日常维护,无需精读。建议团队成员关注 CODEOWNERS 文件的更新,以了解最新的审查职责划分。
参与讨论