为AMD平台Qwen3.5 MoE模型启用共享专家融合,减少内核启动以提升推理效率。
推荐工程师精读`can_fuse_shared_expert`条件判断和权重映射逻辑,理解AMD特定优化路径;关注FP8兼容性为待办事项,可参考讨论中的技术权衡。
SGLang is a high-performance serving framework for large language models and multimodal models.
为AMD平台Qwen3.5 MoE模型启用共享专家融合,减少内核启动以提升推理效率。
推荐工程师精读`can_fuse_shared_expert`条件判断和权重映射逻辑,理解AMD特定优化路径;关注FP8兼容性为待办事项,可参考讨论中的技术权衡。
修复 LFM2-VL 模型离线推理崩溃和图像解码差异,确保与 HuggingFace 输出一致。
该 PR 值得精读,尤其关注:1)GPU 与 CPU 图像解码在视觉模型中的正确性权衡,展示了 nvJPEG 与 PIL 实现差异如何显著影响下游输出;2)PyTorch 装饰器 `@torch.inference_mode()` 与 `@torch.no_grad()` 在推理场景中的适用性区别,以及原地操作与张量类型的交互。建议结合 PR body 中的量化数据理解修复效果。
原始 PR · 作者 ishandhanani · 合并时间 2026-04-15 07:34
调整GB200集群CI流程,定时任务免审批,手动触发仍需审批。
该PR变更简单直接,适合快速浏览以了解CI策略调整。重点关注环境变量的条件逻辑设计,这是基础设施配置中常见的模式。
原始 PR · 作者 amacaskill · 合并时间 2026-04-15 07:25
修复 Docker 镜像中 runai-model-streamer 依赖缺失和目录创建错误。
此 PR 值得快速审阅,重点关注 Dockerfile 中的依赖添加和目录修复逻辑。对于长期维护,建议后续在 `pyproject.toml` 中统一管理 `runai-model-streamer` 依赖以避免冗余。
原始 PR · 作者 merrymercy · 合并时间 2026-04-15 06:22
为 sgl-kernel 的架构检测函数添加缓存装饰器并增强健壮性。
该 PR 值得精读,尤其是 `cache_once` 装饰器的实现,它展示了如何为 `torch.compile` 兼容性设计轻量级缓存。关注点包括:装饰器的键设计、异常处理策略、以及如何统一跨模块的架构检测逻辑。对于涉及 PyTorch 编译或跨平台 GPU 代码的开发者,这是一个实用的参考案例。
为 Jiminator 用户添加 CI 权限,允许触发标签运行、重试失败 CI 和重试阶段。
该 PR 变更简单直接,无需精读。值得关注的点是 CI 权限管理机制,可通过配置文件灵活控制用户权限,适合基础设施维护者了解。
优化流式响应性能,将字符串拼接替换为整数偏移量以消除O(n²)开销。
该PR值得精读,展示了如何将O(n²)字符串操作优化为O(1)整数操作的设计决策。重点关注状态表示从字符串到整数的转变,以及首次块检测逻辑的显式化处理。同时,review中关于echo场景的偏移量修正揭示了流式处理中常见的时间状态跟踪陷阱,具有借鉴意义。
重命名会话计数函数并使用辅助函数简化流式会话检测。
建议快速浏览此 PR,重点关注命名改进和辅助函数的使用,以学习代码风格优化技巧。对于深入了解流式会话内存管理机制的工程师,可结合 #22651 和 #22753 阅读。
参与讨论