Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 22:12 同步状态:空闲 下次计划:2026-04-19 23:12

PR 列表

已合并 962 · 已分析 962
更多筛选
2026-04-09
功能 重要性 7.00 洞察度 6.00

新增稀疏token嵌入覆盖功能,允许在指定位置注入预计算嵌入向量。

建议工程师精读此PR,了解如何设计稀疏嵌入覆盖API,以及内部如何集成到tokenization、调度和模型执行流程。特别关注前缀缓存和CUDA图的处理机制,以避免性能退化,并学习PositionalEmbeds数据结构的应用。

#22230 [Feature] Support eagle3 for qwen3-vl

作者 litmei · 合并时间 2026-04-09 11:45

功能 重要性 5.00 洞察度 4.00

为Qwen3-VL模型添加EAGLE3推测解码支持,提升推理性能。

建议技术管理者关注此PR作为多模态模型性能优化的一部分。对于工程师,值得关注set_eagle3_layers_to_capture的默认层选择策略,以及forward方法中aux_hidden_states的处理方式。虽然变更较小,但涉及核心推理路径,建议结合EAGLE3相关代码一起理解。

重构 重要性 4.00 洞察度 3.00

延迟导入flash_attention_v4模块,消除服务器启动时的日志噪音和性能开销。

该PR值得快速浏览,特别是对于关注启动性能优化和代码组织模式的工程师。关键设计决策是将重量级导入延迟到实际使用点,这是一个常见的Python优化模式。建议关注flash_attention.py中的实现方式,以及如何平衡导入开销与代码清晰度。

功能 重要性 6.00 洞察度 6.00

增强Ngram推测解码的多SAM支持,修复错误处理并添加全局token预算管理。

推荐精读此PR以学习推测解码中多SAM管理的设计模式,特别是预算实施、错误处理和并发边界条件。关注cpp_ngram/ngram_corpus.py中的预算跟踪逻辑和tokenizer_communicator_mixin.py中的结果聚合方法。

#22029 [NPU][CI] Use UV to improve pip install speed

作者 tfhddd · 合并时间 2026-04-09 09:18

基础设施 重要性 4.00 洞察度 3.00

使用UV工具加速NPU CI环境中的pip安装,安装时间从4分钟缩短至1分40秒。

对于技术管理者,此PR展示了CI基础设施优化的一个实例,值得关注以提高团队效率;对于工程师,除非直接维护NPU CI脚本,否则无需精读,但可借鉴uv工具的集成方法。

功能 重要性 6.00 洞察度 7.00

为扩散模型RL后训练新增模块化Rollout Log-Prob引擎,支持SDE/CPS/ODE策略。

建议技术管理者和扩散模型开发者精读此PR,关注其模块化设计、混合模式集成以及序列并行兼容性的实现细节,为类似功能扩展提供参考。

基础设施 重要性 4.00 洞察度 5.00

为check-stage-health CI动作添加lint检查失败快速失败机制,提升CI效率。

该PR值得CI/基础设施维护者精读,特别是关注跨工作流状态查询的实现方式。虽然变更规模较小,但展示了在GitHub Actions中实现跨工作流协调的实用模式。建议关注checks.listForRef API的使用细节和错误处理机制。

测试 重要性 5.00 洞察度 4.00

新增GLM-5.1 FP8夜间测试并更新Qwen3.5模型配置,扩展大模型测试覆盖。

该PR值得关注,特别是对于负责CI测试和模型验证的工程师。建议精读test_glm_51_fp8.py中的并行配置变体设计,以及DP-attention在Qwen3.5测试中的集成方式,这反映了项目对多GPU并行策略的测试演进。同时,注意提交历史中的回退操作,了解模型命名一致性的重要性。

参与讨论