#21313 bugfix for weight loading for qwen3-next
作者 McZyWu · 合并时间 2026-03-26 21:21
修复 Qwen3-next 模型量化权重加载时属性访问错误。
建议关注此 PR 以了解权重加载机制的潜在问题,但注意它已被回退(PR #21496),因此实际解决方案可能不同。对于类似问题,应优先考虑使用公共 API 或改进设计。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 McZyWu · 合并时间 2026-03-26 21:21
修复 Qwen3-next 模型量化权重加载时属性访问错误。
建议关注此 PR 以了解权重加载机制的潜在问题,但注意它已被回退(PR #21496),因此实际解决方案可能不同。对于类似问题,应优先考虑使用公共 API 或改进设计。
作者 monkeyLoveding · 合并时间 2026-03-26 19:35
为 NPU CI 测试缓存 PyTorch 依赖,加速构建。
该 PR 是常规的 CI 基础设施优化,对于负责 NPU 或 CI 维护的工程师值得快速浏览以了解依赖缓存策略;对于其他开发者,变更影响有限,无需深度阅读,但可作为基础设施改进的参考案例。
作者 yctseng0211 · 合并时间 2026-03-26 18:16
修复AMD 4-GPU CI测试脚本路径错误,确保内存清理正常执行。
此PR变更简单直接,无需精读;但对于关注CI基础设施维护的工程师,可作为修正脚本路径的示例。
作者 mickqian · 合并时间 2026-03-26 16:33
修复 diffusion 夜间 CI 脚本中的导入路径错误,确保测试正常运行。
对于负责 CI 维护或 diffusion 测试的工程师,建议查看修改以了解导入路径处理模式;对于一般开发者,此 PR 变更简单,无需精读。
作者 mickqian · 合并时间 2026-03-26 16:31
修复 Qwen-Image 模型与 nunchaku 量化的兼容性问题。
建议从事扩散模型或多模态生成的工程师精读此 PR,以了解 ReplicatedLinear 的集成方式和量化适配模式。特别关注 prefix 参数的设置和 forward 方法的调整,可作为量化兼容性修复的参考案例。
作者 nv-anants · 合并时间 2026-03-26 16:22
升级xgrammar依赖到0.1.32以获取安全修复。
建议快速审查版本变更,重点关注xgrammar 0.1.32的发布说明以了解具体安全修复内容。对于工程师,无需深入代码逻辑,但需验证相关功能(如MUSA支持)在升级后仍正常工作,并关注CI测试结果。
作者 zhentaocc · 合并时间 2026-03-26 15:57
集成aiter的fused_topk到MoE topk函数,提升AMD GPU上softmax+topk融合性能。
该PR值得精读,尤其关注条件分支设计如何平衡性能优化和向后兼容,以及导入组织的优化模式。对于从事硬件优化、MoE开发或第三方库集成的工程师有参考价值。
作者 yeahdongcn · 合并时间 2026-03-26 15:09
为Apple Silicon Mac添加原生MLX执行后端,提升推理性能。
建议技术管理者和工程师精读此PR,重点关注MlxModelRunnerStub的设计如何避免PyTorch加载,以及tensor_bridge.py中的零拷贝张量转换实现。这些决策展示了硬件后端集成的优雅模式。
参与讨论