对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
石油真的是远古动物尸体来的吗?
核聚变是一条死胡同吗?
想问一下莆田鞋真的靠谱吗?
什么笑话让你看一次笑一次?
JetBrains 放弃 AppCode 是否是一个错误决定?
为什么都对TLC乃至未来的QLC嗤之以鼻呢?
学生校服如何隐藏内衣痕迹?
postgresql能取代mongodb吗?
docker有哪些有趣的用途?
我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
为什么 CRT 画质这么好也被淘汰,液晶反而发展的很好?
为何中国反复升级轰六轰炸机群?
如何评价《绝区零》第十三期的危局强袭战?
为什么越来越多的国内男孩,要娶国外女孩?
老公想要买2万左右的相机,我该同意吗?
中国发动机是技术落后,还是材料技术没有攻克?