Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

jit-kernel 相关 PR

2026-04-14

#22672 reland [Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support

作者 BBuf · 合并时间 2026-04-14 15:00

功能 重要性 7.00 洞察度 6.00

为扩散模型添加FLUX.1-dev ModelOpt NVFP4支持,提升推理性能22.9%。

diffusion quant jit-kernel performance feature

该PR值得精读,特别是关注NVFP4集成设计、量化配置灵活性和性能优化策略。建议关注以下设计决策: 1. `swap_weight_nibbles`配置如何平衡不同导出格式的兼容性。 2. JIT预热机制在torch.compile环境下的优化作用。 3. transformer组件加载逻辑的修改如何避免全局覆盖冲突。

#22724 [Misc] Add @cache_once to is_arch_support_pdl in jit_kernel

作者 merrymercy · 合并时间 2026-04-14 05:42

重构 重要性 3.00 洞察度 4.00

为jit_kernel的is_arch_support_pdl函数添加缓存装饰器,并简化cache_once实现。

jit-kernel refactor run-ci

该PR变更简单直接,适合快速浏览以了解缓存装饰器的使用和代码简化技巧。对于深入理解JIT内核模块的架构检测机制或装饰器设计模式有一定参考价值,但无需投入大量时间精读。

2026-04-13

#20673 [Feature][JIT Kernel] Fused TP QK norm For Minimax

作者 DarkSharpness · 合并时间 2026-04-13 20:29

功能 重要性 6.00 洞察度 7.00

为 MiniMax 模型实现融合的张量并行 QK 归一化 JIT 内核,解码性能提升约 4.7%。

jit-kernel performance feature run-ci scheduling

该 PR 值得精读,特别是对于关注性能优化、JIT 内核设计和分布式计算的工程师。建议关注以下设计决策: - eps 正确性处理的实现细节,确保数值稳定性。 - 自定义 all reduce v2 框架的扩展方式,如何支持新内核的块数配置。 - 模型集成中的环境变量使用和潜在回退机制,以平衡性能与鲁棒性。 阅读时结合单元测试和基准脚本,以全面理解性能提升和风险点。

#22187 [HiSparse]: Add benchmark for hisparse kernel

作者 hzh0425 · 合并时间 2026-04-13 12:49

测试 重要性 4.00 洞察度 4.00

为hisparse JIT内核添加基准测试脚本,评估缓存加载性能。

jit-kernel test performance run-ci

对于负责jit-kernel性能优化的工程师,建议浏览此PR以了解基准测试设计和配置参数;但对于一般开发者,无需深入阅读,因为核心代码未变。关注点可放在基准测试方法论和review中的改进建议上。

#22649 Revert "[Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support (#22574)"

作者 mickqian · 合并时间 2026-04-13 11:17

缺陷修复 重要性 6.00 洞察度 5.00

撤销FLUX.1-dev ModelOpt NVFP4支持,修复CI测试失败。

diffusion quant run-ci documentation jit-kernel

建议技术管理者精读此PR以理解CI失败原因和revert策略,工程师应关注flux.py中的代码不一致性问题,并考虑后续清理未使用参数。该PR揭示了量化功能集成中的测试和代码一致性挑战。

#22574 [Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support

作者 BBuf · 合并时间 2026-04-13 07:57

功能 重要性 6.00 洞察度 5.00

为 FLUX.1-dev 扩散模型添加 ModelOpt NVFP4 量化支持,提升性能约 23%。

diffusion quant feature run-ci jit-kernel

建议技术管理者和工程师精读此 PR,重点关注:`build_modelopt_nvfp4_transformer.py` 的设计如何混合 BF16 和 NVFP4 模块以保持数值稳定性;`swap_weight_nibbles` 配置在 `modelopt_quant.py` 中的实现,了解权重布局处理;以及 `prewarm_nvfp4_jit_modules` 在 `denoising.py` 中的优化策略,避免 Dynamo 追踪开销。这些决策对后续量化支持有借鉴意义。

2026-04-11

#22467 [Kernel] Set sgl_per_token_group_quant_8bit_v2 as default choice

作者 Fridge003 · 合并时间 2026-04-11 16:59

功能 重要性 6.00 洞察度 5.00

将更快的 v2 分组量化内核设为默认,提升高负载性能。

quant sgl-kernel performance run-ci jit-kernel

该 PR 值得精读,特别是关注 v2 内核的默认启用逻辑和弃用环境变量的处理方式。设计决策包括基于组大小自动启用 v2 内核,以及平滑过渡的弃用机制,这些对于性能优化和向后兼容性有借鉴意义。