Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

llama 相关 PR

2026-05-16
性能优化 重要性 6.82 洞察度 6.00

Llama4 CUDA 路径消除冗余拷贝

该 PR 值得精读,尤其是它展示了如何利用现有融合内核来消除冗余拷贝,是一种低风险、高收益的微优化。对于性能敏感型开发者,建议学习 `apply_qk_norm` 的使用模式。建议在后续 PR 中添加自动化测试和 benchmark。