对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
养了近十年的草龟要不要放生?
为什么还用导弹发射井,机动式部署不是更安全吗?
如果意外挖出 10 吨黄金,有那些将它们洗白、正常使用的方法?
买到烂尾楼到底该有多绝望?
Rust开发Web后端效率如何?
我应该设置多少kb才能让他不能玩游戏?
Electron 做游戏客户端的潜力有多大?
现在个人博客不能备案了吗?
美国很多地方废弃,为啥很多人宁可在街上流浪,也没有人去开荒种地呢?
CPU 为什么很少会坏?
Node.js是谁发明的?
如果你孩子高中毕业,暑***想跟闺蜜约出去旅行,你同意吗?
上海迪斯尼为什么老是打架?
韦东奕在北大会面临非升即走吗?
AI如何辅助编程?
如果我写个脚本,一直跌的股票一旦上涨就立刻(1s内)买,接着一旦下跌就立刻(1s内)卖,会怎样?