Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

cuda 相关 PR

2026-06-03
性能优化 重要性 6.55 洞察度 6.00

批量 CUDA A2A 通信优化扩散模型推理

建议在合并后尽快进行多 GPU 扩散模型的集成测试,验证正确性和性能收益。该 PR 的设计决策(合并通信与共享 stream)值得后续类似优化参考,但风险较低,可部署。

2026-05-16
性能优化 重要性 6.82 洞察度 6.00

Llama4 CUDA 路径消除冗余拷贝

该 PR 值得精读,尤其是它展示了如何利用现有融合内核来消除冗余拷贝,是一种低风险、高收益的微优化。对于性能敏感型开发者,建议学习 `apply_qk_norm` 的使用模式。建议在后续 PR 中添加自动化测试和 benchmark。