Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-02

#21414 fix(MiMo-V2-Flash): add mimo reasoning parser

原始 PR · 作者 alphabetc1 · 合并时间 2026-04-02 00:47

缺陷修复重要性 6.00 洞察度 5.00

修复MiMo-V2-Flash模型推理解析错误，避免API响应中message.content为空。

建议精读以理解推理解析器的设计模式，关注硬编码与通用解析逻辑的权衡；对于类似模型支持，可参考此PR作为案例。

bugfixmultimodalconsistency

2026-04-01

#21811 [Diffusion][NPU] add ring sp performance benchmark page in npu

原始 PR · 作者 ChefWu551 · 合并时间 2026-04-01 23:53

文档重要性 3.00 洞察度 2.00

新增Ascend NPU上Ring-SP性能基准文档，展示扩散模型在NPU上的并行加速效果。

该PR为文档类变更，无需深入代码精读。建议NPU用户或对扩散模型性能优化感兴趣的工程师浏览新增文档，关注其提供的基准测试方法和加速效果，可作为NPU环境配置和性能评估的参考。

documentationnpudiffusion

#21834 [Feature] JIT rmsnorm update (with claude)

原始 PR · 作者 DarkSharpness · 合并时间 2026-04-01 23:40

功能重要性 6.00 洞察度 6.00

优化 JIT RMSNorm 内核，支持隐藏尺寸至 16384，提升 Blackwell 架构性能。

建议工程师精读 `rmsnorm.cuh` 中的新内核实现，了解 Pre-Blackwell 和 Blackwell 架构的优化策略（如向量加载和共享内存使用）；同时关注 `bench_norm.py` 中的性能基准，以评估在不同隐藏尺寸和批处理大小下的性能权衡。设计决策如隐藏尺寸支持扩展和内核选择逻辑值得关注，可作为 JIT 内核优化的参考案例。

jit-kernelperformancefeature

#18709 [diffusion][CI]: Add individual component accuracy CI for diffusion models

原始 PR · 作者 Ratish1 · 合并时间 2026-04-01 21:51

测试重要性 6.00 洞察度 6.00

为扩散模型组件级准确性添加CI测试框架，提升验证覆盖。

此PR值得精读，因为它展示了一个复杂的测试框架设计，涉及分布式设置、权重对齐和钩子架构。关注点包括：钩子如何适配不同组件的forward签名、权重对齐逻辑处理参数名映射和融合张量、以及内存管理策略（如分阶段执行）对大型模型的支持。

diffusionrun-cimultimodal

#20751 [NPU]Add a full test pipeline on NPU, resolve issues in the NPU test architecture

原始 PR · 作者 cherryblo · 合并时间 2026-04-01 19:56

基础设施重要性 6.00 洞察度 4.00

新增NPU完整测试流水线，解决测试架构问题以支持版本发布前的全面测试。

建议NPU相关开发者和测试工程师精读此PR，重点关注`.github/workflows/full-test-npu.yml`中的流水线设计，学习如何通过参数化配置实现多环境测试。该PR展示了测试架构的优化模式，值得借鉴以实现其他硬件平台的无缝集成。

npurun-citest

#21830 Use CustomTestCase for TestSessionControl to enable CI retry

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-01 19:26

测试重要性 4.00 洞察度 5.00

修复H200 GPU上会话控制测试的CI稳定性，通过继承CustomTestCase并禁用CUDA图优化。

该PR值得快速浏览，重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试，可借鉴此方法确保计算路径一致性。

testcidebugging

#21651 [VLM] remove AsyncMMDataProcessor wrapper

原始 PR · 作者 yhyang201 · 合并时间 2026-04-01 17:39

重构重要性 5.00 洞察度 6.00

移除AsyncMMDataProcessor包装器，简化多模态数据处理逻辑。

建议工程师精读此PR，了解多模态处理器异步设计的历史问题和简化决策。特别关注llava.py中添加的超时实现，以及tokenizer_manager.py中直接调用异步方法的变更，以理解如何平衡设计简洁性与功能需求。

refactormultimodalconsistency

#21807 [NPU] update ascend docs

原始 PR · 作者 amote-i · 合并时间 2026-04-01 17:14

文档重要性 3.00 洞察度 2.00

更新Ascend NPU文档，移除已弃用参数并添加Qwen3-235B模型长序列示例。

对于使用Ascend NPU平台的开发者，建议关注新增的Qwen3-235B长序列示例，以获取最新配置实践。PR本身为文档更新，无需代码审查，但文档变更值得验证以确保内容准确。

documentationdeepseeknpu

第 312 / 357 页 · 共 2850 条

上一页 1 … 310 311 312 313 314 … 357 下一页