Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 07:10 同步状态:空闲 下次计划:2026-04-19 08:10

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-26

#21313 bugfix for weight loading for qwen3-next

作者 McZyWu · 合并时间 2026-03-26 21:21

缺陷修复 重要性 5.00 洞察度 4.00

修复 Qwen3-next 模型量化权重加载时属性访问错误。

建议关注此 PR 以了解权重加载机制的潜在问题,但注意它已被回退(PR #21496),因此实际解决方案可能不同。对于类似问题,应优先考虑使用公共 API 或改进设计。

基础设施 重要性 4.00 洞察度 3.00

为 NPU CI 测试缓存 PyTorch 依赖,加速构建。

该 PR 是常规的 CI 基础设施优化,对于负责 NPU 或 CI 维护的工程师值得快速浏览以了解依赖缓存策略;对于其他开发者,变更影响有限,无需深度阅读,但可作为基础设施改进的参考案例。

#21415 [diffusion] fix: fix qwen-image with nunchaku

作者 mickqian · 合并时间 2026-03-26 16:31

缺陷修复 重要性 5.00 洞察度 4.00

修复 Qwen-Image 模型与 nunchaku 量化的兼容性问题。

建议从事扩散模型或多模态生成的工程师精读此 PR,以了解 ReplicatedLinear 的集成方式和量化适配模式。特别关注 prefix 参数的设置和 forward 方法的调整,可作为量化兼容性修复的参考案例。

#21032 [Deps] Bump xgrammar to 0.1.32

作者 nv-anants · 合并时间 2026-03-26 16:22

基础设施 重要性 4.00 洞察度 2.00

升级xgrammar依赖到0.1.32以获取安全修复。

建议快速审查版本变更,重点关注xgrammar 0.1.32的发布说明以了解具体安全修复内容。对于工程师,无需深入代码逻辑,但需验证相关功能(如MUSA支持)在升级后仍正常工作,并关注CI测试结果。

功能 重要性 6.00 洞察度 5.00

集成aiter的fused_topk到MoE topk函数,提升AMD GPU上softmax+topk融合性能。

该PR值得精读,尤其关注条件分支设计如何平衡性能优化和向后兼容,以及导入组织的优化模式。对于从事硬件优化、MoE开发或第三方库集成的工程师有参考价值。

功能 重要性 6.00 洞察度 7.00

为Apple Silicon Mac添加原生MLX执行后端,提升推理性能。

建议技术管理者和工程师精读此PR,重点关注MlxModelRunnerStub的设计如何避免PyTorch加载,以及tensor_bridge.py中的零拷贝张量转换实现。这些决策展示了硬件后端集成的优雅模式。

参与讨论