Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-02

#26959 [diffusion] add WebUI

原始 PR · 作者 mickqian · 合并时间 2026-06-02 14:13

功能 重要性 9.00 洞察度 4.00

新增 LingBot 实时 WebUI 前端,支持实时视频流交互

该 PR 展示了前端 WebUI 的良好架构设计,特别是 decoder_worker 使用 Web Worker 分离解码逻辑,以及丰富的预设数据管理。值得前端和后端开发者阅读,理解多模态生成场景下的实时视频流交互模式。

#26954 [diffusion] misc

原始 PR · 作者 mickqian · 合并时间 2026-06-02 13:52

功能 重要性 9.36 洞察度 6.00

新增 LingBot World 实时扩散管道与 WebUI 支持

此 PR 属于里程碑级功能合并,架构设计值得精读:特别是 `CausalSelfAttentionKVCache` 的抽象和 `CausalDMDDenoisingStage` 的通用化处理。对于参与 diffusion 或实时推理的开发者,建议重点阅读 `causal_denoising.py`、`causal_attention_cache.py` 和 `lingbot_world.py`,了解因果视频生成的流水线设计。对于仅使用批处理推理的用户,此 PR 无直接影响,但未来可复用其基础架构。

#26931 [AMD] dpsk-v4 swa loc cache support

原始 PR · 作者 1am9trash · 合并时间 2026-06-02 13:37

性能优化 重要性 6.66 洞察度 5.00

DeepSeek V4 SWA 位置缓存优化

建议仔细审查缓存失效逻辑的鲁棒性,尤其是 `start_layer` 假设和并发场景。推荐在合并前补充单元测试,验证不同层执行顺序和并发情况下的缓存行为。作者不需要对 PR 做额外操作。

缺陷修复 重要性 6.93 洞察度 7.00

修复 AMD ROCm AITER 上 GPT-OSS MXFP4 精度错误

本 PR 展示了系统性的精度调试过程,涉及跨栈的权重布局、kernel dispatch 和属性传播问题。建议团队内对涉及 AITER MXFP4 的后续开发仔细审查 `is_shuffled` 标志的传播和 GateMode 配置。值得精读,尤其是在理解量化内核集成和平台适配方面。

性能优化 重要性 7.08 洞察度 6.00

将 Frozen-KV MTP 辅助种子步骤融合到捕获的草稿 CUDA 图中

该 PR 值得精读,特别是了解如何将 eager forward 步骤融合到现有的 CUDA 图中以减少 kernel launch 开销。设计思路(将第一轮迭代纳入循环)可推广到其他类似场景。

#26774 [NPU][Docs] Kimi-K2.5 best practice

原始 PR · 作者 litmei · 合并时间 2026-06-02 13:14

文档 重要性 4.59 洞察度 3.00

为 Kimi-K2.5-w4a8 新增 Ascend NPU 最佳实践文档

值得精读,特别是需要在 NPU 上部署 Kimi K2.5 的用户。重点关注低延迟与高吞吐配置的差异,并注意表格与命令的卡数一致性。

参与讨论