Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-22

#26053 [XPU] add apache-tvm-ffi dependency

原始 PR · 作者 jiayisunx · 合并时间 2026-05-22 16:09

基础设施重要性 2.18 洞察度 2.00

XPU 安装文档与 Dockerfile 新增 tvm-ffi 依赖

该 PR 为常规依赖补充，无需精读。但可关注后续 XPU 构建是否因版本冲突出现问题。

infraxpuintel

#26057 [docs] DeepSeek-V4 cookbook: split Quantization axis, add H100 SGLang FP8

原始 PR · 作者 zijiexia · 合并时间 2026-05-22 15:52

文档重要性 6.96 洞察度 5.00

拆分量化轴，新增H100 FP8支持

值得关注的设计决策是将量化选择从硬件中分离，通过一个简单的 effHw 映射函数保持向后兼容性，避免了大规模重构。这种模式适用于任何多维配置 UI。建议阅读 JSX 中的约束和回退逻辑实现。

documentationdeepseekrefactor

#25805 Fix SWA double-free in disagg decode with MTP speculation

原始 PR · 作者 yhyang201 · 合并时间 2026-05-22 15:28

缺陷修复重要性 5.23 洞察度 5.00

修复 SWA double-free 在 disagg decode 中的 bug

值得精读，尤其是关注 disagg 和推测解码稳定性的团队。修复思路清晰，可作为类似残留引用问题的参考模式。

bugfixkv-cachespeculative-decoding

#25674 [diffusion] Fix MOVA DAC bf16 on ROCm

原始 PR · 作者 qimcis · 合并时间 2026-05-22 15:18

缺陷修复重要性 7.38 洞察度 6.00

修复 ROCm bf16 下 DAC Snake 编译失败

该 PR 值得精读，特别是对于需要支持多硬件平台（如 ROCm）的团队。其设计模式——将 JIT 编译的函数拆分为纯 Python 实现和编译赋值，并添加条件回退——是一种优雅的跨平台兼容性解决方案，值得在其他类似场景中借鉴。

diffusionbugfixroc

#26020 [core] step 2: drop seq_lens sentinel; SB maintains GPU as `seq_lens_cpu` mirror

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-22 15:12

重构重要性 7.32 洞察度 6.00

丢弃 seq_lens sentinel，统一 GPU/CPU 镜像维护

该 PR 值得精读，展示了如何将分散的临时修复整合为统一不变量的重构方法。关键设计决策：单一入口 ForwardBatch.init_new 作为 GPU materialization 点；SB 只维护镜像，前向路径只写 forward_batch。后续开发应参考此模式，避免再次出现分散协调点。

refactorschedulingkv-cache

#25910 vit optimization

原始 PR · 作者 yhyang201 · 合并时间 2026-05-22 14:57

性能优化重要性 7.70 洞察度 5.00

跨请求 ViT 批处理优化，减少图像编码调用次数

该 PR 引入了重要的跨请求 ViT 批处理优化，设计上拆分了原有大函数为可组合工具，值得精读以理解 multimodal 批处理策略。但 AMD CI 失败表明需要在 AMD 平台验证并修复，建议尽快确认问题并跟进。

performancemultimodalrefactor

#25982 Fix disaggregation bootstrap server lifetime

原始 PR · 作者 fzyzcjy · 合并时间 2026-05-22 14:10

缺陷修复重要性 5.34 洞察度 4.00

修复分解服务 bootstrap server 被垃圾回收的问题

建议精读：改动虽小，但涉及 Python 对象生命周期管理，是常见的 GC 陷阱。值得关注的是如何在代码中通过注释保护这种隐式依赖。

bugfixinfra

#25953 [perf] skip add_special_tokens=False kwarg on chat-template tokenize for slow tokenizers

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-22 13:45

性能优化重要性 6.65 洞察度 6.00

优化慢速 tokenizer 的 chat 模板编码性能

值得精读。这是一个典型的性能优化实践：通过探测运行时行为而非硬编码条件，实现了通用性和正确性保障。其设计模式（探测-缓存-条件跳转）可复用于类似场景。

performancebugfix

第 82 / 357 页 · 共 2850 条

上一页 1 … 80 81 82 83 84 … 357 下一页