为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。
该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。
该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。
原始 PR · 作者 merrymercy · 合并时间 2026-04-18 08:42
清理基准测试警告并简化归一化函数分发逻辑,提升代码清晰度。
该PR值得快速浏览,重点关注归一化函数分发逻辑的简化方式,这是一种常见的代码优化模式;对于涉及设备特定逻辑(如musa)的清理,可思考是否在其他地方有类似遗留代码需要统一处理。
重构MoE Triton runner路径,提取共享助手以消除代码重复。
该PR值得精读,特别是对于涉及MoE模块或代码重构的工程师。关注如何提取共享助手以处理平台差异(CUDA/HIP/XPU)、保持LoRA钩子兼容性以及通过配置管理确保bit-identical的设计决策。
为 LoRA 任务添加 CI 权限配置
该 PR 为常规权限配置变更,无需深入审查。
原始 PR · 作者 yeahdongcn · 合并时间 2026-04-18 07:00
为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。
该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。
在 sglang 导入时尽早应用 transformers monkey-patches,彻底修复 CI 中因 Hugging Face API 调用导致的 429 速率限制问题。
推荐所有维护者和涉及 Hugging Face 集成的开发者精读此 PR,重点关注 `apply_all()` 中的设计权衡(急切 vs 惰性补丁、前端兼容性处理)和导入重构模式(文件重命名以避免模块膨胀),这些决策在管理第三方依赖升级和跨模块一致性方面具有参考价值。
合并 /get_load 到 /v1/loads,统一负载报告路径并弃用旧端点。
该 PR 值得精读,尤其关注数据结构的统一设计和向下兼容处理。值得注意的设计决策包括:在 `GetLoadsReqOutput` 中新增 `num_total_tokens` 字段以区分已使用和总令牌数,以及通过垫片保留旧 API 的平滑迁移路径。
原始 PR · 作者 merrymercy · 合并时间 2026-04-18 04:33
移除已弃用的双稀疏注意力优化特性,清理代码库和相关文档。
建议开发者浏览此 PR 以学习如何安全移除大型特性,重点关注跨文件引用清理和文档更新模式;对于涉及类似弃用代码清理的项目,可参考此次实现步骤。
参与讨论