Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 11:20 同步状态:空闲 下次计划:2026-04-19 12:20

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-28
重构 重要性 6.00 洞察度 6.00

统一TeaCache参数类,移除Wan特定实现,支持动态系数回调。

建议工程师精读此PR,重点关注: - TeaCacheParams类的设计变化,特别是get_coefficients方法和coefficients_callback机制,展示了如何通过回调支持动态系数选择。 - CFG逻辑的简化处理(get_skip_boundaries方法),这对理解扩散模型中的缓存优化和步骤管理有参考价值。 - 单元测试的设计,验证兼容性和回调优先级,可作为类似重构的测试范例。

#19452 [NVIDIA] Enable automatic NUMA configuration

作者 trevor-m · 合并时间 2026-03-28 09:44

功能 重要性 6.00 洞察度 6.00

启用自动NUMA节点配置,替代手动指定,提升系统性能。

建议工程师精读numa_utils.py以理解自动NUMA配置的核心逻辑,特别关注设计决策如查询方法选择。对于性能优化项目,此PR提供了系统配置自动化的范例。

文档 重要性 4.00 洞察度 2.00

更新维护者文档,细化按领域分区的合并/评审人员列表并添加GitHub个人资料链接。

该PR值得团队负责人、文档维护者和CI管理员阅读,以了解维护者结构和权限变更。对于普通工程师,建议关注MAINTAINER.md中的oncall列表,熟悉新的协作流程,并检查CI_PERMISSIONS.json以确认权限更新。

缺陷修复 重要性 5.00 洞察度 5.00

限制流式积压合并仅适用于增量流输出模式,避免不必要的性能开销。

建议精读此PR,重点关注`_wait_one_response`函数中的条件判断和块合并逻辑,这展示了流式输出处理的核心设计权衡(如增量vs累积输出)。对工程师而言,可学习如何优化性能敏感路径,并注意日志策略的平衡。

#20972 Remove sync when enabling return_logprob

作者 Qiaolin-Yu · 合并时间 2026-03-28 07:36

性能优化 重要性 6.00 洞察度 5.00

移除启用return_logprob时的同步操作,提升约25.8%的token吞吐量。

建议工程师精读此PR,关注异步数据处理的设计模式,以及如何平衡性能与正确性,对于涉及GPU-CPU数据传输的优化有参考价值。

功能 重要性 6.00 洞察度 6.00

支持自动检测LoRA目标模块,简化适配器配置。

建议工程团队关注自动检测逻辑的设计,了解如何扩展支持新模块类型;测试部分的安全问题需后续修复;可精读utils.py中的auto_detect_lora_target_modules函数,学习模型扫描和模块归一化方法。

参与讨论