对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
你们在编程时遇到过什么离谱的bug吗?
自己拥有一台服务器可以做哪些很酷的事情?
每个人说一个行业的秘密吧?
卸载迅雷后,***文件变成xunlei.bittorrent.6,怎么还原回去啊,心态炸了!?
为什么长得漂亮却没什么用?
为什么手机动辄都 1T 存储了,为啥电脑还在死磕 512G 呢?
导师给了1.4W要我给工作室买个主机,是整机还是自己配?
Linux下监控流量一般使用什么工具?
多个充电宝或电芯品牌的 3C 认证证书被暂停,涉及罗马仕、安克、绿联、倍思、安普瑞斯等,发生了什么?
为什么玩乐器的人都不喜欢让别人碰自己的乐器?
女明星做了什么医美项目保持童颜?
你曾看到空乘做过的最傻的事情是什么?
小朋友到底应不应该购买SWitch?
Apple 为什么不封杀 Flutter 呢?
你们觉得京东外卖能做起来么?
自己组一个E5服务器才几百块钱,为什么去阿里云租这么贵?