Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 21:09 同步状态:空闲 下次计划:2026-04-19 22:09

PR 列表

已合并 962 · 已分析 962
更多筛选
2026-04-10
缺陷修复 重要性 5.00 洞察度 4.00

修复GLM工具调用参数值中重要空格被错误剥离的问题。

该PR值得快速浏览以理解工具调用解析中的空格处理陷阱。关注点:1. 为什么`arg_key.strip()`保留而`arg_value.strip()`移除的设计决策。2. 新增测试如何模拟真实场景(代码缩进)。3. 可扩展思考:其他检测器是否有类似问题。

功能 重要性 6.00 洞察度 7.00

为Qwen3-ASR模型添加基于块的流式语音识别,通过SSE实时输出部分转录。

建议技术管理者和工程师精读此PR,关注 `StreamingASRState` 的设计和适配器扩展模式,这些决策为流式处理提供了可扩展框架。同时,注意跨块状态不共享的架构选择,这限制了性能优化但保持了最小变更原则。

#22463 Add skills for debugging hanging issues

作者 ispobock · 合并时间 2026-04-10 01:37

文档 重要性 3.00 洞察度 4.00

新增调试分布式推理挂起问题的技能文档,提供系统化排查方法。

建议团队阅读此技能文档以掌握分布式调试方法,但无需精读代码变更。对于从事分布式推理开发的工程师,此文档是宝贵的参考资料。

#22329 [AMD] Add prealloc token env for mori-ep

作者 billishyahao · 合并时间 2026-04-10 00:34

功能 重要性 5.00 洞察度 4.00

为AMD MORI-EP新增预分配令牌环境变量,支持内存占用与性能调优。

该PR值得AMD平台开发者或MoE模块维护者精读,重点关注check_mori_compatibility的设计如何优雅处理库版本差异,以及环境变量与性能调优的关联。

2026-04-09

#22159 Add MLX profiling to bench_one_batch.py

作者 Jonahcb · 合并时间 2026-04-09 20:45

功能 重要性 6.00 洞察度 6.00

为bench_one_batch.py脚本添加MLX性能分析支持,支持GPU和系统范围分析。

建议技术管理者和工程师: - 值得快速浏览以了解MLX profiling集成模式,特别是在条件处理和文件名适配方面的设计决策。 - 关注gemini-code-assist[bot]提出的兼容性讨论,学习如何在跨平台代码中维护正确性。 - 对于涉及性能分析或macOS开发的工程师,推荐精读以复用类似实现。

#22440 Upgrade sglang-torch-profiler-analysis SKILLS

作者 BBuf · 合并时间 2026-04-09 18:23

重构 重要性 5.00 洞察度 6.00

升级sglang-torch-profiler-analysis技能到triage-only工作流,简化剖析分析流程。

该PR值得开发者和性能分析工程师精读,关注triage工作流的设计决策、融合模式注册表(FusionPatternSpec)的引入以及如何简化多阶段剖析分析。对于管理重构和工具链优化的团队,这是一个值得借鉴的案例。

documentation 重要性 3.00 洞察度 4.00

澄清SWA内存池配置器注释,明确全SWA与混合模式语义差异。

该PR值得快速浏览,特别是关注__init__方法中更新后的注释,以理解全SWA与混合模式内存计算的区别。review评论揭示的内存浪费问题值得进一步关注,建议结合model_runner.py代码评估是否需优化。

参与讨论