Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-01

#23811 [Feature] Xiaomi MiMo-V2.5 day0 support

原始 PR · 作者 Abatom · 合并时间 2026-05-01 00:02

功能重要性 9.18 洞察度 6.00

为Xiaomi MiMo-V2.5添加多模态与EAGLE推测解码支持

此 PR 是小米模型的完整集成，值得详细审阅，特别是 fused-qkv 装载模式、多模态处理器设计以及 VisionAttention 增强。合并后应关注 Gemma4 和其他多模态模型的回归测试。

featuremultimodalspeculative-decoding

2026-04-30

#24155 [AMD] Nightly image release for deepseek v4

原始 PR · 作者 yctseng0211 · 合并时间 2026-04-30 23:49

基础设施重要性 4.81 洞察度 2.00

添加DeepSeek V4 AMD夜间镜像发布

这是一次纯粹的CI/CD配置变更，对于非AMD平台的工程师可忽略。但AMD团队应关注构建成功率，并考虑添加构建后的测试验证步骤。

amdcidocker

#19541 [NPU] fix some npu error with OffloaderV2

原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-30 20:05

缺陷修复重要性 6.99 洞察度 5.00

修复NPU OffloaderV2的meta和sharded_gpu模式兼容问题

该PR虽是bugfix但涉及offloader核心路径和NPU后端的关键操作，值得相关维护者精读。'_move_param_to_meta' 中的weight_loader补全和NPU格式转换的meta跳过是两个值得注意的设计决策，体现了对框架参数迁移和异构设备支持的深入理解。

npubugfixrun-ci

#21126 [4/N] Quantization Refactor: AWQ schemes and Kernel call and weight init split

原始 PR · 作者 Alisehen · 合并时间 2026-04-30 19:51

重构重要性 9.18 洞察度 8.00

重构AWQ量化模块，拆解为scheme结构并分离后端内核

**值得精读**。该 PR 展示了如何将庞大历史遗留模块拆解为 scheme + kernel 的干净架构，其设计思路可以借鉴到其他量化方法（如 GPTQ、FP8）甚至非量化的模型层。重点关注 `get_quant_method` 的分派逻辑、`_init_kernel` 钩子模式以及 hardware_backend 的隔离策略。

quantrefactorrun-ci

#24145 [CI] Remove orphaned test/srt/ascend and test/srt/configs

原始 PR · 作者 merrymercy · 合并时间 2026-04-30 19:43

基础设施重要性 6.33 洞察度 2.00

删除遗留测试目录并更新 NPU CI 路径

建议合并。这是一个积极的维护行为，可以快速通过。后续可检查是否还有其他残留的旧路径引用。

run-cicinpu

#23972 fix the compatibility between --moe-dense-tp-size 1 and piecewise cuda graph

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-30 17:12

缺陷修复重要性 6.73 洞察度 4.00

修复 piecewise CUDA graph 与 MoE dense TP 的兼容性

值得精读，特别是关注 MoE 并行策略与 CUDA graph 捕获兼容性的开发者。设计简单且可维护。

bugfixrun-ciperformance

#22546 allow requests with exactly context_len total tokens

原始 PR · 作者 opherlieber · 合并时间 2026-04-30 16:12

缺陷修复重要性 4.35 洞察度 2.00

修复边界条件，允许总 token 数等于 context_len 的请求

可以快速合并。变更简单安全，建议添加单元测试覆盖边界情况以确保未来重构时不会回归。

bugfixrun-ci

#23738 fix(lora): avoid CUDA graph-breaking scalar assignment in seg_indptr

原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-30 16:11

缺陷修复重要性 4.70 洞察度 4.00

修复LoRA CUDA graph中seg_indptr标量赋值导致的同步点

值得快速合并，但建议在后续 PR 中补充 CUDA graph 兼容性测试，避免类似回归。

lorabugfixperformance

第 190 / 357 页 · 共 2850 条

上一页 1 … 188 189 190 191 192 … 357 下一页