Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-14 21:07 同步状态:空闲 下次计划:2026-06-14 22:07

PR 列表

更多筛选
2026-04-01
性能优化 重要性 7.00 洞察度 7.00

优化 fused_qknorm_rope JIT 内核,通过减少冗余计算和降低寄存器压力提升性能。

建议工程师精读 `fused_qknorm_rope.cuh` 中的内核优化逻辑,特别是循环重构和模板参数设计,关注寄存器优化技巧和编译时分支消除,这些对 CUDA 内核性能调优有借鉴价值。同时,可参考基准测试扩展方法以验证实际工作负载性能。

#21528 Remove obsolete sgl-kernel legacy paths

原始 PR · 作者 BBuf · 合并时间 2026-04-01 09:00

重构 重要性 4.00 洞察度 2.00

移除 sgl-kernel 中的过时遗留路径和内核,清理代码库。

该 PR 值得快速浏览以了解代码清理方向,但无需精读细节。对于关注内核演进或 sgl-kernel 模块的工程师,可注意移除的设计决策(如 AOT 到 JIT 的迁移)和过时功能的淘汰趋势。

缺陷修复 重要性 4.00 洞察度 3.00

修复 killall.py 在 sglang 未安装时的导入崩溃问题,确保 CI 稳定。

该 PR 变更简单直接,不值得精读,除非关注 CI 脚本细节或 import 依赖管理。可关注内联外部命令调用的模式,以避免模块导入依赖。

测试 重要性 4.00 洞察度 3.00

移除EAGLE推测解码测试中的冗余用例,显著缩短CI执行时间。

该PR对CI优化有价值,值得快速浏览以理解测试套件结构改进,如冗余测试识别和核心测试提取逻辑,但无需深入代码细节。

#21794 Switch MooncakeSpec to EAGLE3 + Llama-3.1

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-01 08:12

测试 重要性 4.00 洞察度 3.00

将 MooncakeSpec 测试模型从 Llama-2 EAGLE 切换到 Llama-3.1 EAGLE3,并调整精度阈值和并行度。

对于技术管理者和工程师,本 PR 值得快速浏览以了解测试配置的更新。关注点包括:模型切换的背景(Llama-2 分数下降)、新阈值设定的依据(CI 分数 0.775 > 0.74),以及并行度增加对测试性能的潜在优化。

#21791 Increase hicache eval to 200 examples

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-01 07:58

测试 重要性 4.00 洞察度 2.00

将 hicache 一致性测试的样本数从 50 增加到 200,以降低 flaky 分数差异。

该 PR 变更简单,无需精读。但可以关注参数调整的合理性,如样本数和并行度的选择,以及它们对测试稳定性和性能的平衡。

#21787 Remove redundant test_moe_eval_accuracy_large

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-01 07:45

测试 重要性 3.00 洞察度 3.00

移除冗余的 MoE 评估测试文件,优化测试套件结构。

此 PR 变更直接,无需深入审查。建议工程师快速浏览以了解测试清理实践,但对于代码学习价值有限。

功能 重要性 6.00 洞察度 4.00

新增 CompletionSampler,支持通过 /v1/completions API 进行非聊天模型评估。

建议工程团队精读此 PR,关注 `CompletionSampler` 的设计如何与现有 `ChatCompletionSampler` 集成,以及参数提取的优化方式。对于使用非聊天模型的开发者,此功能值得关注。

参与讨论