Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-19

#23119 [CI] Add per-job uv venv isolation and upgrade CI version to Cuda 13

原始 PR · 作者 Fridge003 · 合并时间 2026-04-19 20:32

基础设施重要性 8.75 洞察度 5.00

添加每个作业的 uv venv 隔离并升级 CI 到 CUDA 13，优化依赖管理和环境一致性。

建议技术管理者关注此 PR 的 CI 架构设计，特别是 uv venv 隔离的实现方式和缓存优化策略，可作为类似环境管理参考。工程师可精读 `quantization_utils.py` 和 `transformer_load_utils.py` 的变更，学习 ModelOpt 配置处理和错误恢复模式，同时注意 `bench_utils.py` 中的性能分析鲁棒性改进。

run-cidependencies

#22850 [AMD] Reduce NSA indexer kernels (weights_proj, k-cache store kernel fusion)

原始 PR · 作者 1am9trash · 合并时间 2026-04-19 15:18

性能优化重要性 6.46 洞察度 5.00

为AMD HIP后端优化NSA索引器，通过内核融合减少计算开销。

该PR值得精读，特别是对于关注AMD平台性能优化的工程师。重点关注两个设计决策：1. 权重投影参数类型统一为bf16的权衡，以及移除冗余类型转换的逻辑；2. AITER融合内核的集成方式，包括缓存布局适配和快速路径条件判断。建议结合性能测试数据评估实际收益。

performanceamdrun-ci

#22431 Fix Qwen3.5 video processing when passing video_data in "processor_output" format

原始 PR · 作者 lkhl · 合并时间 2026-04-19 00:04

缺陷修复重要性 4.35 洞察度 3.00

修复 Qwen3.5 视频处理在 processor_output 格式下因返回值数量不匹配导致的解包错误。

该 PR 代码量极小，适合快速浏览以理解多模态处理器中视频数据格式的接口契约。值得关注的是 `preprocess_video` 函数对两种输入路径（原始视频对象 vs 预处理字典）的统一处理设计。

bugfixmultimodalrun-ci

2026-04-18

#22814 diffusion: add HunyuanVideo GroupNorm+SiLU fast path

原始 PR · 作者 BBuf · 合并时间 2026-04-18 23:38

功能重要性 9.00 洞察度 6.00

为HunyuanVideo扩散模型添加Triton GroupNorm+SiLU快速路径，提升解码阶段性能。

建议精读该PR以学习Triton内核设计中的分块策略和性能调优技巧，关注环境变量控制的设计如何平衡性能收益与兼容性。对于扩散模型优化开发者，此PR展示了针对特定模型层的定制化加速路径实现。

diffusionjit-kernelperformance

#22664 Qwen3next flashinfer allreduce auto enable

原始 PR · 作者 BBuf · 合并时间 2026-04-18 22:32

功能重要性 4.89 洞察度 4.00

为 Qwen3Next 模型默认启用 FlashInfer AllReduce 融合，显著提升 H100 多卡性能。

该 PR 变更简洁且目标明确，适合快速了解 FlashInfer AllReduce 融合的启用机制和性能优化效果。建议关注 `server_args.py` 中的白名单逻辑和条件检查，这是项目中对模型特定优化进行集中管理的一个典型模式。

featureperformancerun-ci

#22169 [main] chore: add bias for base layer with lora

原始 PR · 作者 gongyisheng · 合并时间 2026-04-18 17:07

缺陷修复重要性 5.06 洞察度 5.00

为 LoRA 基类添加 bias 属性，修复权重同步时 Qwen2 模型输出错误。

该 PR 值得精读，因为它揭示了 LoRA 包装层与权重同步机制间的微妙交互。关注 `BaseLayerWithLoRA` 如何通过属性反射确保 `named_parameters()` 完整性，这是支持动态权重更新的关键设计决策。

lorabugfixrun-ci

#23077 [NPU] [DOC] Update npu best practice docs to match latest code

原始 PR · 作者 amote-i · 合并时间 2026-04-18 14:17

文档重要性 4.43 洞察度 3.00

更新 Ascend NPU 最佳实践文档，同步最新模型配置和性能数据。

对于 NPU 平台用户或开发者，建议快速浏览此文档更新以了解最新配置；特别关注环境变量设置的最佳实践，以避免潜在问题。

documentationnpu

#22869 [diffusion] feat: introduce ltx-2-two-stage device manager

原始 PR · 作者 mickqian · 合并时间 2026-04-18 11:04

功能重要性 8.88 洞察度 6.00

引入LTX-2两阶段设备管理器，优化内存使用和LoRA切换性能。

该PR值得精读，尤其是`LTX2TwoStageDeviceManager`类的实现，展示了针对多阶段模型的内存与性能优化设计。关注其模式自动选择策略（基于GPU内存）、CPU快照机制以及review中讨论的代码安全性改进点，这些对理解高性能推理系统的设备管理有较高参考价值。

diffusionlorafeature

第 237 / 357 页 · 共 2850 条

上一页 1 … 235 236 237 238 239 … 357 下一页