Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

quant 相关 PR

2026-04-18

#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4

作者 BBuf · 合并时间 2026-04-18 09:06

功能 重要性 9.06 洞察度 6.00

为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。

feature diffusion quant performance run-ci

该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。

2026-04-17

#22955 [Diffusion] Fix ModelOpt B200 CI artifact coverage

作者 BBuf · 合并时间 2026-04-17 23:33

缺陷修复 重要性 6.89 洞察度 5.00

修复 ModelOpt B200 diffusion CI 覆盖,优化权重文件选择和 artifact 保存。

diffusion quant run-ci documentation

建议工程团队精读 `transformer_load_utils.py` 中的 `_prefer_mixed_safetensors_files` 函数,理解其设计权衡:在遇到混合和非混合文件共存时,优先选择混合版本以避免重复张量名问题。同时,关注测试 artifact 保存机制,确保在 CI 中正确配置环境变量以利用此功能。

基础设施 重要性 9.00 洞察度 5.00

回退AMD GPU上的MXFP4量化模型支持,修复CI依赖安装失败。

dependencies amd quant

该PR值得精读,以理解依赖版本不匹配如何导致功能回退的典型案例。关注点包括:1) petit.py中配置类的重构如何简化代码结构,2) petit_utils.py中的错误处理设计如何优雅降级,3) 配置文件的联动调整确保系统一致性。对于基础设施团队,可借鉴CI依赖管理的最佳实践。

#19143 feat: Support MXFP4 quantized dense models on AMD CDNA2/CDNA3 GPUs

作者 fengli1702 · 合并时间 2026-04-17 07:51

功能 重要性 9.00 洞察度 6.00

新增 Petit MXFP4 量化方案,支持 AMD CDNA2/CDNA3 GPU 运行 FP4 量化模型。

feature amd quant performance dependencies

建议精读以了解量化管道集成设计,重点关注 `petit_mxfp4.py` 中的配置类实现和 `petit_utils.py` 中的兼容性检查逻辑,这些体现了 AMD 平台扩展和第三方内核集成的权衡。

#22948 [AMD] Qwen3.5 MXFP4 breaks after shared expert fusion is enabled

作者 mqhc2020 · 合并时间 2026-04-17 06:25

缺陷修复 重要性 6.12 洞察度 6.00

修复 Qwen3.5 MXFP4 模型在启用共享专家融合后的崩溃问题。

amd bugfix run-ci quant

该 PR 值得精读,因为它揭示了量化模型在专家融合时的数据类型不匹配问题,并展示了通过配置检查来优雅降级的设计决策。关注 `can_fuse_shared_expert` 函数中新增的排除层逻辑,以及未来可能的重构方向(如将逻辑移至 `QuantConfig`)。

2026-04-15

#22772 [codex] Update modelopt quantization docs and CI coverage

作者 BBuf · 合并时间 2026-04-15 21:30

文档 重要性 5.48 洞察度 4.00

更新 ModelOpt 量化文档并扩展 B200 GPU 上的 CI 测试覆盖。

documentation quant run-ci diffusion

建议快速浏览文档更新部分以了解量化模型的最新支持;重点关注 `_make_modelopt_ci_case` 函数的设计,它展示了如何标准化创建量化测试用例;检查测试文件中的死引用问题是否已解决。

2026-04-14

#21734 perf: optimize PCG inductor path for FP8 models

作者 jasperjiaguo · 合并时间 2026-04-14 17:51

性能优化 重要性 6.70 洞察度 6.00

优化PCG Inductor路径下FP8模型的GPU内核开销,提升嵌入性能24%。

performance refactor quant run-ci

建议精读此PR,关注如何权衡自定义内核与Inductor融合的设计决策,以及通过本地配置检查避免全局副作用的实现方式。对于从事编译器优化或量化开发的工程师,此PR提供了实际性能调优案例。

#22672 reland [Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support

作者 BBuf · 合并时间 2026-04-14 15:00

功能 重要性 7.00 洞察度 6.00

为扩散模型添加FLUX.1-dev ModelOpt NVFP4支持,提升推理性能22.9%。

diffusion quant jit-kernel performance feature

该PR值得精读,特别是关注NVFP4集成设计、量化配置灵活性和性能优化策略。建议关注以下设计决策: 1. `swap_weight_nibbles`配置如何平衡不同导出格式的兼容性。 2. JIT预热机制在torch.compile环境下的优化作用。 3. transformer组件加载逻辑的修改如何避免全局覆盖冲突。