Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#26959 [diffusion] add WebUI

原始 PR · 作者 mickqian · 合并时间 2026-06-02 14:13

功能重要性 9.00 洞察度 4.00

新增 LingBot 实时 WebUI 前端，支持实时视频流交互

该 PR 展示了前端 WebUI 的良好架构设计，特别是 decoder_worker 使用 Web Worker 分离解码逻辑，以及丰富的预设数据管理。值得前端和后端开发者阅读，理解多模态生成场景下的实时视频流交互模式。

diffusionfeatureinfra

#26954 [diffusion] misc

原始 PR · 作者 mickqian · 合并时间 2026-06-02 13:52

功能重要性 9.36 洞察度 6.00

新增 LingBot World 实时扩散管道与 WebUI 支持

此 PR 属于里程碑级功能合并，架构设计值得精读：特别是 `CausalSelfAttentionKVCache` 的抽象和 `CausalDMDDenoisingStage` 的通用化处理。对于参与 diffusion 或实时推理的开发者，建议重点阅读 `causal_denoising.py`、`causal_attention_cache.py` 和 `lingbot_world.py`，了解因果视频生成的流水线设计。对于仅使用批处理推理的用户，此 PR 无直接影响，但未来可复用其基础架构。

diffusionfeatureperformance

#27014 [Bug] Fix circular import in `forward_batch_info` from runtime `cp_utils` import

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-02 13:51

缺陷修复重要性 5.24 洞察度 4.00

修复 forward_batch_info 循环导入问题

值得快速合入并关注。这类细粒度导入治理能预防后续类似问题，建议团队在代码审查中持续关注导入层级。

bugfixinfrarefactor

#26931 [AMD] dpsk-v4 swa loc cache support

原始 PR · 作者 1am9trash · 合并时间 2026-06-02 13:37

性能优化重要性 6.66 洞察度 5.00

DeepSeek V4 SWA 位置缓存优化

建议仔细审查缓存失效逻辑的鲁棒性，尤其是 `start_layer` 假设和并发场景。推荐在合并前补充单元测试，验证不同层执行顺序和并发情况下的缓存行为。作者不需要对 PR 做额外操作。

deepseekperformanceamd

#26884 [AMD] Fix GPT-OSS MXFP4 accuracy on ROCm AITER path

原始 PR · 作者 kkHuang-amd · 合并时间 2026-06-02 13:30

缺陷修复重要性 6.93 洞察度 7.00

修复 AMD ROCm AITER 上 GPT-OSS MXFP4 精度错误

本 PR 展示了系统性的精度调试过程，涉及跨栈的权重布局、kernel dispatch 和属性传播问题。建议团队内对涉及 AITER MXFP4 的后续开发仔细审查 `is_shuffled` 标志的传播和 GateMode 配置。值得精读，尤其是在理解量化内核集成和平台适配方面。

amdbugfixquant

#25539 [Spec] `FrozenKVMTP` fold assistant seed into captured draft graph

原始 PR · 作者 kpham-sgl · 合并时间 2026-06-02 13:27

性能优化重要性 7.08 洞察度 6.00

将 Frozen-KV MTP 辅助种子步骤融合到捕获的草稿 CUDA 图中

该 PR 值得精读，特别是了解如何将 eager forward 步骤融合到现有的 CUDA 图中以减少 kernel launch 开销。设计思路（将第一轮迭代纳入循环）可推广到其他类似场景。

performancespeculative-decodingrefactor

#26774 [NPU][Docs] Kimi-K2.5 best practice

原始 PR · 作者 litmei · 合并时间 2026-06-02 13:14

文档重要性 4.59 洞察度 3.00

为 Kimi-K2.5-w4a8 新增 Ascend NPU 最佳实践文档

值得精读，特别是需要在 NPU 上部署 Kimi K2.5 的用户。重点关注低延迟与高吞吐配置的差异，并注意表格与命令的卡数一致性。

documentationnpuperformance

#27003 chore(CODEOWNERS): add allocator/ owners and @alphabetc1 to mem_cache

原始 PR · 作者 alphabetc1 · 合并时间 2026-06-02 13:07

其他重要性 2.17 洞察度 2.00

更新 CODEOWNERS 添加内存分配器负责人

该 PR 为基础设施日常维护，无需精读。建议团队成员关注 CODEOWNERS 文件的更新，以了解最新的审查职责划分。

infraci

第 31 / 357 页 · 共 2850 条

上一页 1 … 29 30 31 32 33 … 357 下一页