Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#24925 [attn backend] Integrate tokenspeed_mla prefill/decode kernels (fp8 kv cache, blackwell)

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-14 08:36

功能重要性 9.18 洞察度 6.00

集成 tokenspeed_mla Blackwell MLA 内核后端

建议阅读 `tokenspeed_mla_backend.py` 了解子类化扩展点设计，学习如何通过重构 `trtllm_mla_backend.py` 实现内核调度可替换。关注 `tokenspeed_mla` 包的安装与验证流程。未来可基于此模式集成更多 CuTe DSL 内核。

featureperformancekv-cache

#25197 ci: decouple stage and runner for cuda registry

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-14 08:28

重构重要性 6.19 洞察度 6.00

拆分CI注册suite为stage和runner_config

该 PR 展示了如何通过 AST 工具进行大规模安全重构，值得 CI 基础设施维护者精读。建议合并后提醒团队迁移期间避免同时修改注册点。

ciinfrarefactor

#25192 chore(ci_monitor): drop post_bisect_to_slack

原始 PR · 作者 alisonshao · 合并时间 2026-05-14 08:05

重构重要性 6.85 洞察度 2.00

删除 post_bisect_to_slack 脚本并更新注释

建议快速合并。该清理不引入任何新风险，同时降低了维护成本。后续可考虑是否还需要保留 `ci_auto_bisect.py` 中的错误结果输出 JSON 文件功能，但目前影响不大。

infracirefactor

#25190 fix(nvfp4): make process_weights_after_loading hot-reload-safe via alias-when-same-shape

原始 PR · 作者 ch-wan · 合并时间 2026-05-14 07:57

缺陷修复重要性 7.36 洞察度 7.00

使 NVFP4 权重后处理支持热重载

PR 值得精读，特别是 `alias_or_bind_derived_param` 的实现和在 `process_weights_after_loading` 中的调用方式。该 PR 展示了如何在保持内存优化的同时解决热重载正确性问题，设计模式（别名共享 vs. 回退分配）对类似问题有参考价值。建议关注 scalar 参数不别名背后的原因，避免未来重蹈覆辙。

bugfixquantperformance

#24986 [rebase]Deepseek_v4 support w4(mxfp4)a16 on hopper

原始 PR · 作者 shiyu7 · 合并时间 2026-05-14 07:33

功能重要性 7.61 洞察度 5.00

DeepSeek V4 新增 Hopper MXFP4 Marlin 支持

该 PR 是对 DeepSeek V4 MXFP4 量化支持的关键移植，值得关注其权重名称兼容性设计和 Marlin 集成模式。建议团队统一量化体系结构后考虑合并两条后端。

deepseekperformancequant

#25026 [Bench] Add MEM profile activity to bench_serving

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-14 07:22

功能重要性 4.67 洞察度 2.00

bench_serving 新增 MEM 内存分析选项

该 PR 逻辑简单，可直接合并。但建议未来考虑在 help 中明确 MEM 选项的依赖（如需要 CUDA 设备），并补充简单的单元测试确保 choices 包含 MEM。

featurebenchmarkinfra

#25193 ci: compute matrix partition counts from `est_time`

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-14 07:18

基础设施重要性 6.51 洞察度 5.50

基于 est_time 动态计算 CI 矩阵分区数

建议 CI 维护者精读此 PR，特别是 `compute_partitions.py` 的实现和公式。值得关注的设计决策包括： - 使用 `est_time` 作为分区依据而非测试数量，更贴近实际耗时。 - stage-a 硬编码作为安全网，体现对关键路径的保守策略。 - JSON 输出结构和 GitHub Actions 的动态矩阵消费模式。 - 在 `_pr-test-check-changes.yml` 中如何通过脚本判断 `full-parallel` 模式。建议在后续 PR 中考虑监控分区偏差告警机制。

infracirefactor

#25126 Fix scheduler admission for near-full KV requests

原始 PR · 作者 ziang663 · 合并时间 2026-05-14 06:30

缺陷修复重要性 6.67 洞察度 4.00

修复接近满 KV 请求无法被调度的问题

值得精读，尤其是涉及调度准入边界条件的逻辑。建议在后续开发中考虑将准入预算计算提取为公共函数，避免重复。

bugfixschedulingrun-ci

第 132 / 357 页 · 共 2850 条

上一页 1 … 130 131 132 133 134 … 357 下一页