Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-18 19:19 同步状态:空闲 下次计划:2026-04-18 20:19

PR 列表

已合并 957 · 已分析 957
更多筛选
2026-03-10
功能 重要性 6.00 洞察度 6.00

为扩散模型图像编辑功能添加多提示与多图像的映射支持。

该 PR 值得精读,尤其关注 `per_prompt_images` 的设计决策和错误处理机制。建议工程师重点查看 `image_encoding.py` 中的循环编码逻辑,以理解多提示场景下的性能权衡;技术管理者可评估通用性设计对其他模型适配的指导意义。

#20200 [Diffusion][Bugfix] Fix flux2 lora

作者 RuixiangMa · 合并时间 2026-03-10 16:57

缺陷修复 重要性 6.00 洞察度 5.00

修复Flux2 LoRA加载以支持AI Toolkit/ComfyUI训练的模型。

建议技术管理者关注新格式检测的实现,特别是命名映射逻辑,可作为未来扩展其他LoRA格式的参考模板。工程师值得精读_convert_ai_toolkit_flux_lora函数,理解权重转换的设计决策和潜在改进点。

2026-03-08
测试 重要性 4.00 洞察度 3.00

添加混合分块预填充单元测试并进行小重构

该PR值得快速浏览以了解混合分块预填充的测试用例,但设计决策较简单,无需深入精读。建议工程师关注test_mixed_chunk_prefill_budgets方法中的预算计算逻辑,以理解混合分块行为;对于代码重构部分,可借鉴defaults.update(kwargs)模式提升测试灵活性。

缺陷修复 重要性 4.00 洞察度 3.00

在Helios模型的optimized_scale函数中添加.float()转换,确保bf16下的CFG Zero Star数值稳定性。

此PR值得快速浏览以了解数值稳定性最佳实践和与上游diffusers库的同步,但变更简单,无需深入分析设计决策;关注点在于代码清晰度与内存效率的权衡讨论。

2026-03-06
缺陷修复 重要性 3.00 洞察度 4.00

修复 bench_one_batch_server 中吞吐量指标计算的分母不一致问题,统一使用总延迟。

由于此 PR 已被回滚,不建议精读,但可以关注 issue #18712 和后续 revert PR 21276 以了解完整的讨论和决策过程。对于工程师,可学习吞吐量指标计算的设计决策,并注意在类似更改中加强测试验证。

重构 重要性 6.00 洞察度 6.00

重构NaN/OOB检测为异步检查,避免GPU-CPU同步,提升Eagle性能。

值得精读,特别是对从事GPU性能优化和异步编程的工程师。重点关注`maybe_detect_nan`/`maybe_detect_oob`函数的设计,以及环境变量与CLI参数的集成方式,以学习如何平衡调试工具和性能开销。

2026-03-04

#19718 Support `triton_kernels` for GPT-OSS on SM120

作者 b8zhong · 合并时间 2026-03-04 06:14

功能 重要性 6.00 洞察度 6.00

为SM120 Blackwell GPU添加triton_kernels支持,以运行GPT-OSS模型的MXFP4量化。

建议技术管理者关注此PR中的硬件特定优化设计(如SM120的条件分支)和量化集成策略;对于工程师,值得精读`mxfp4.py`中`_swizzle_mxfp4`函数的改动,以了解GPU架构差异(如TMA块布局支持)对内核选择的影响,并参考issue评论中的性能数据和兼容性修复。

#19689 feat: support Kimi K2.5 for Eagle3

作者 yefei12 · 合并时间 2026-03-04 02:41

功能 重要性 6.00 洞察度 5.00

为Kimi K2.5模型添加Eagle3 speculative decoding支持,优化推理效率。

建议精读此PR以了解speculative decoding的模型集成模式,关注委托方法的实现和性能基准测试结果,同时留意跨平台性能差异和代码可维护性议题。

参与讨论