对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
为什么润人觉得出国一定就会过的好呢?
k8s里面kubectl get pod -d wide命令作用是什么?
MySQL 面试一般常问问题有哪些?
《崩坏 3》V8.3 主线「如果命运在今日终结」有哪些可能的伏笔?
前端真的已经凉了么?
为什么鲁迅认为中医是一种有意的或无意的骗子?
东航mu5735坠机事故调查结果迄今未出炉正常吗?为什么?
如何评价《灵笼 2》第六集?
深圳的人口最终会剩下多少?
中国大陆的苹果手机被阉割了哪些部分?
程序员如何用好 Cursor 工具?
2025年了,京东是不是已经度过了此次风波?
新修订的治安管理处罚法重构「被殴打还手即互殴」的认定标准,明确正当防卫免处罚,怎样从法律角度解读?
什么是 AI Agent(智能体)?
为什么武汉的发展感觉对不起它逆天的位置?
为什么很多男人都喜欢大胸的女生?