Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-18

#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4

原始 PR · 作者 BBuf · 合并时间 2026-04-18 09:06

功能重要性 9.06 洞察度 6.00

为扩散模型NVFP4量化添加FlashInfer TRTLLM后端，提升性能并作为稳定性后备。

该PR值得精读，尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制，它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策，以及环境变量缓存清理（cache_clear）的运用，这些对类似功能扩展有借鉴价值。

featurediffusionquant

#23110 Clean up bench_one_batch warning and simplify norm dispatch

原始 PR · 作者 merrymercy · 合并时间 2026-04-18 08:42

重构重要性 5.64 洞察度 3.00

清理基准测试警告并简化归一化函数分发逻辑，提升代码清晰度。

该PR值得快速浏览，重点关注归一化函数分发逻辑的简化方式，这是一种常见的代码优化模式；对于涉及设备特定逻辑（如musa）的清理，可思考是否在其他地方有类似遗留代码需要统一处理。

sgl-kernelrun-cirefactor

#23019 refactor(moe): de-duplicate triton MoE runner path into shared helpers

原始 PR · 作者 ch-wan · 合并时间 2026-04-18 08:05

重构重要性 8.76 洞察度 6.00

重构MoE Triton runner路径，提取共享助手以消除代码重复。

该PR值得精读，特别是对于涉及MoE模块或代码重构的工程师。关注如何提取共享助手以处理平台差异（CUDA/HIP/XPU）、保持LoRA钩子兼容性以及通过配置管理确保bit-identical的设计决策。

refactormoeperformance

#23108 Update CI_PERMISSIONS

原始 PR · 作者 jybsuper · 合并时间 2026-04-18 07:53

基础设施重要性 3.32 洞察度 1.00

为 LoRA 任务添加 CI 权限配置

该 PR 为常规权限配置变更，无需深入审查。

#21509 [MLX] Support radix cache

原始 PR · 作者 yeahdongcn · 合并时间 2026-04-18 07:00

功能重要性 9.18 洞察度 6.00

为 MLX 后端添加基数缓存，提升共享前缀工作负载的预填充吞吐量。

该 PR 值得精读，特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略（如自动池大小计算）以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计（如分离 KV 池、缓存类和注意力包装器），但需注意测试覆盖和架构兼容性的不足。

featuremlxperformance

#23103 Apply HF transformers patches from sglang init

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-18 06:37

缺陷修复重要性 6.96 洞察度 5.00

在 sglang 导入时尽早应用 transformers monkey-patches，彻底修复 CI 中因 Hugging Face API 调用导致的 429 速率限制问题。

推荐所有维护者和涉及 Hugging Face 集成的开发者精读此 PR，重点关注 `apply_all()` 中的设计权衡（急切 vs 惰性补丁、前端兼容性处理）和导入重构模式（文件重命名以避免模块膨胀），这些决策在管理第三方依赖升级和跨模块一致性方面具有参考价值。

bugfixdependenciesrun-ci

#23010 Merge /get_load into /v1/loads

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-18 04:36

重构重要性 8.23 洞察度 5.00

合并 /get_load 到 /v1/loads，统一负载报告路径并弃用旧端点。

该 PR 值得精读，尤其关注数据结构的统一设计和向下兼容处理。值得注意的设计决策包括：在 `GetLoadsReqOutput` 中新增 `num_total_tokens` 字段以区分已使用和总令牌数，以及通过垫片保留旧 API 的平滑迁移路径。

refactormodel-gatewayrun-ci

#23009 Remove deprecated double sparsity feature

原始 PR · 作者 merrymercy · 合并时间 2026-04-18 04:33

重构重要性 8.50 洞察度 3.00

移除已弃用的双稀疏注意力优化特性，清理代码库和相关文档。

建议开发者浏览此 PR 以学习如何安全移除大型特性，重点关注跨文件引用清理和文档更新模式；对于涉及类似弃用代码清理的项目，可参考此次实现步骤。

refactordocumentationnpu

第 238 / 357 页 · 共 2850 条

上一页 1 … 236 237 238 239 240 … 357 下一页