Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 16:47 同步状态：空闲下次计划：2026-06-07 17:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#20864 [Perf]Remove H2D for Qwen3.5 SpecV2

原始 PR · 作者 Chen-0210 · 合并时间 2026-03-31 11:54

性能优化重要性 6.00 洞察度 5.00

优化Qwen3.5 SpecV2推测解码路径，移除不必要的Host-to-Device传输以提升性能。

建议技术管理者和工程师精读此PR，关注其性能优化技巧和基准测试方法。设计决策中值得学习的是如何识别并移除隐式H2D传输，以及通过条件分支优化特定场景的性能。

performancespeculative-decodingrefactor

#21728 [Fix] Update supported custom_mem_pool types for mooncake

原始 PR · 作者 TTThanos · 合并时间 2026-03-31 11:18

缺陷修复重要性 2.00 洞察度 1.00

更新mooncake自定义内存池类型常量以匹配INTRA_NODE_NVLINK。

此PR变更简单，不值得精读，但可以作为示例了解如何维护常量一致性。关注点是确保相关PR #18259的变更已被正确集成。

bugfixrefactor

#21719 Revert "DeepSeek-R1-0528-w4a8: DeepEP Low Latency Dispatch Adopts FP8 Communication"

原始 PR · 作者 BBuf · 合并时间 2026-03-31 10:22

缺陷修复重要性 6.00 洞察度 3.00

撤销DeepEP低延迟调度中的FP8通信优化，恢复BF16通信。

建议阅读此PR以了解为什么撤销FP8通信优化，并结合PR #14162分析设计权衡；关注变更对性能基准测试的影响，并检查相关Moe模块的代码稳定性。

bugfixperformancequant

#21714 Fix human-eval CI install on 5090 runners

原始 PR · 作者 alisonshao · 合并时间 2026-03-31 09:53

缺陷修复重要性 3.00 洞察度 3.00

修复CI中human-eval安装失败，通过固定setuptools版本为70.0.0。

这是一个简单的CI修复，对于理解setuptools版本管理和CI依赖问题有帮助，但无需精读。建议快速浏览以了解类似问题的解决模式，可作为CI配置优化的小技巧参考。

bugfixcitest

#21483 [misc] multiprocess compilation to speed up test

原始 PR · 作者 DarkSharpness · 合并时间 2026-03-31 08:56

性能优化重要性 5.00 洞察度 6.00

通过多进程并行编译JIT内核，将自定义AllReduce测试时间从300秒减半至150秒。

该PR值得精读，特别是多进程编译的设计决策和JIT内核标识符的调整。关注`_precompile_kernels()`函数的实现，以及如何平衡编译并行度和资源开销。同时，注意review中未处理的RuntimeError风险，建议在类似场景中采纳评论建议以增强代码鲁棒性。

run-cijit-kernelperformance

#21711 Remove flashinfer wheel cache cleanup that deletes other versions

原始 PR · 作者 alisonshao · 合并时间 2026-03-31 07:47

缺陷修复重要性 5.00 洞察度 3.00

移除FlashInfer wheel缓存清理逻辑，避免CI作业间版本冲突导致的重复下载。

此PR变更简单，值得快速审查以理解CI缓存策略调整，重点关注移除清理逻辑的权衡。建议阅读review评论，了解未解决的潜在问题，未来可能需补充wheel选择鲁棒性和磁盘清理机制。

cibugfix

#21691 [AMD] fix performance regression issue when run gpt-oss with "--context-length 13824"

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-31 07:30

缺陷修复重要性 6.00 洞察度 5.00

修复 AMD 平台 gpt-oss 模型解码注意力 kernel 选择错误，提升 40% 性能。

该 PR 值得精读，因为它解决了一个显著的性能回归问题，且变更涉及核心注意力路径。工程师应关注 `forward_decode` 函数的修改，理解 kernel 选择机制，并考虑是否有类似问题存在于其他硬件后端或模型中。

bugfixperformanceamd

#21673 [AMD][MoRI] bump MoRI to v0.1.0

原始 PR · 作者 jhchouuu · 合并时间 2026-03-31 05:44

基础设施重要性 3.00 洞察度 4.00

更新ROCm Dockerfile中MoRI依赖从提交哈希到标签v0.1.0，影响构建过程。

该PR值得快速阅读以了解基础设施维护中的依赖管理实践。建议关注review中关于构建可重复性的讨论，这反映了在易用性和确定性之间的常见权衡，可用于团队最佳实践参考。

amd

第 322 / 358 页 · 共 2857 条

上一页 1 … 320 321 322 323 324 … 358 下一页