MXFP8 MoE Group GEMM & Quant 迁移至 JIT,Blackwell 加速
值得精读,尤其是 Python 端 JIT 编译集成模式(cache_once + load_jit)和 MoE Group GEMM 的 CUTLASS 实现。2SM 策略在 memory-bound 场景的加速效果值得关注。作为系列 PR 的第 1 部分,建议跟踪后续集成。
SGLang is a high-performance serving framework for large language models and multimodal models.
MXFP8 MoE Group GEMM & Quant 迁移至 JIT,Blackwell 加速
值得精读,尤其是 Python 端 JIT 编译集成模式(cache_once + load_jit)和 MoE Group GEMM 的 CUTLASS 实现。2SM 策略在 memory-bound 场景的加速效果值得关注。作为系列 PR 的第 1 部分,建议跟踪后续集成。
Flux Klein 文本编码器对齐官方,引入 masked causal attention
该 PR 值得精读,特别是 `_masked_causal_attention` 的实现展示了如何在不依赖 FlashAttention 内置 masking 时手动处理变长批处理注意力,对扩散模型文本编码器设计有参考价值。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-29 22:39
修复 AMD CI workflow_dispatch 并发冲突
值得合并,变更简单明确,解决了工具链的使用体验问题。
改进 LTX2.3 参考精度与对齐控制
该 PR 展示了如何通过逐步对齐官方实现来提升扩散模型管线精度,特别是文本连接器 CFG 分支的重构和 V2A 跳过标记的设计,具有参考价值。对于关注扩散模型质量工程化的团队建议精读。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-29 21:13
修复 Mistral GQA 及 transformers v5 权重加载兼容性
建议核心开发者仔细审查权重重映射的正则字典,确保覆盖所有已知 Mistral 原生权重名。同时应增加相关单元的测试,当前仅依赖 pre-commit 和手动的 cookbook 验证。设计上选择基于 `model_type` 动态选择骨架,思路清晰,值得借鉴。
Ascend NPU 为 Qwen3 MoE 标准注意力添加 CP
建议阅读 `_cp_allgather_and_save_kv_npu` 的合并通信策略以及 `do_cp_attn_fia` 的 zigzag 实现,这对类似 CP 实现有参考价值。测试设计也值得学习。
修复 EPD 路径因 ZMQ 端口复用导致的崩溃或数据污染
该 PR 修复了一个隐蔽的并发问题,设计思路清晰,适合精读以理解分布式推理中的端口复用场景和防御性编程实践。建议未来添加对应的单元测试或集成测试覆盖端口复用竞争的边界条件。
修复 AMD ROCm CI 因缺少 tracing 依赖失败
值得快速合并的配置修复 PR,逻辑清晰,验证充分。对于其他平台开发者,建议检查是否也需要将 tracing 加入对应的 all 组以避免未来 CI 失败。
参与讨论