Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-20 04:47 同步状态：空闲下次计划：2026-04-20 05:47

PR 列表

已合并 965 · 已分析 965

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-07

#22203 [Spec][Ngram] Support multiple SAMs with dynamic HTTP API

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-07 09:49

功能重要性 6.00 洞察度 7.00

为Ngram推测解码添加多SAM动态HTTP API支持，允许运行时管理外部语料库。

建议技术管理者和工程师精读此PR，重点关注： 1. 多SAM存储的设计决策，如何通过`std::unordered_map`管理语料库生命周期和并发限制（见FIXME）。 2. 异步加载模式，使用`ExternalCorpusManager`和后台线程实现非阻塞操作，避免影响调度器事件循环。 3. 预算分配逻辑在`batchMatch`中的实现，确保草案生成质量不受多SAM影响，注意整数除法可能导致的余数分配问题。 4. 向后兼容处理，保持启动参数`--speculative-ngram-external-corpus-path`工作，并将其整合到新API中。

speculative-decodingfeaturejit-kernel

#22214 Move hash utils out of hicache_storage to break CUDA import chain

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-07 09:16

重构重要性 5.00 洞察度 4.00

移动哈希函数到 utils.py 打破 CUDA 导入链，使 CPU-only 测试可运行。

该 PR 值得精读，作为依赖管理和模块设计的最佳实践示例。关注点：如何分离纯逻辑与外部依赖，以及类型提示的潜在改进空间。

hicacherefactorrun-ci

#21014 [Diffusion] Replace Conv3d with reshape + F.linear in PatchEmbed

原始 PR · 作者 AichenF · 合并时间 2026-04-07 09:12

性能优化重要性 6.00 洞察度 6.00

优化Diffusion模型PatchEmbed模块，用reshape + F.linear替换Conv3d以提升视频推理性能。

建议工程师精读此PR，学习其性能优化技巧（如等价变换、内核合并）和稳健性设计（回退路径、全面测试），特别关注视觉嵌入模块的未来扩展和类似优化机会。

diffusionperformancerun-ci

#20919 [NPU] Support dp-attention for MiniMax2.5

原始 PR · 作者 shadowxz109 · 合并时间 2026-04-07 08:55

功能重要性 6.00 洞察度 6.00

为MiniMax2.5模型添加NPU上的dp-attention支持，优化注意力并行化。

建议工程师精读minimax_m2.py中的TP组重构部分，以理解dp-attention的设计决策；同时关注topk.py的修改，学习如何处理NPU特定优化和代码重构技巧。

npufeatureperformance

#21781 Fix extra calls to get_numa_node_if_available to clean up logs

原始 PR · 作者 trevor-m · 合并时间 2026-04-07 07:18

缺陷修复重要性 3.00 洞察度 3.00

修复NUMA配置中重复调用get_numa_node_if_available导致的冗余日志问题。

该PR值得快速浏览，以了解NUMA配置的优化点。关注点：条件判断的放置位置如何避免冗余计算，以及如何与现有环境变量机制集成。

bugfixrefactorrun-ci

#21792 [CI] Add basic unit test for Minimax-M2.5

原始 PR · 作者 trevor-m · 合并时间 2026-04-07 06:48

测试重要性 4.00 洞察度 3.00

为MiniMax-M2.5模型添加基本单元测试，包含GSM8K评估和速度测试。

对于测试工程师和维护者值得精读，了解如何为新模型添加单元测试并配置推理参数。对于一般开发者，可作为测试模式参考，但变更逻辑简单，无需深度解析。

testrun-ciconsistency

#22210 [CI] Relax transformers MMLU threshold from 0.65 to 0.64

原始 PR · 作者 alisonshao · 合并时间 2026-04-07 06:32

测试重要性 2.00 洞察度 1.00

降低Transformers模型MMLU测试阈值从0.65到0.64，解决CI不稳定性问题。

这是一个简单的测试配置调整PR，无需深入阅读。值得关注的点是：这是典型的CI稳定性维护操作，反映了团队对测试flakiness的快速响应。建议后续关注相关模型的MMLU分数趋势，确保阈值调整不会掩盖真正的性能回归。

testrun-ciconsistency

#22186 Clean up req_time_stats: reduce overhead and simplify

原始 PR · 作者 merrymercy · 合并时间 2026-04-07 05:20

重构重要性 5.00 洞察度 6.00

清理请求时间统计模块，减少开销并简化代码，优化性能与可读性。

建议工程师精读此PR，关注时间戳默认逻辑的设计权衡和tracing_enable检查的性能优化技巧；同时，在类似代码中避免使用`or`操作符处理可能为0.0的默认值，并检查重命名一致性。

refactorperformancerun-ci

第 53 / 121 页 · 共 965 条

上一页 1 … 51 52 53 54 55 … 121 下一页

支持 Prhub ♥