对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
大家晒一晒情侣聊天记录呗?
Golang 中为什么没有注解?
预测一下,下一次阅兵会出现什么武器震惊世界?
真枪实弹的射击场会发生枪杀***吗?
MacOS真的比Windows流畅吗?
谁是对Mac有成见然后用完Mac后真香的?
Golang与Rust哪个语言会是今后的主流?
为什么苹果手机杀后台现象频繁?是内存不够、后台管理严格还是其他原因呢?
如何看待 Three.js / WebGL 等前端 3D 技术?
如何看待路由器和网线对耳机音质的影响?
和异性最疯狂有多疯狂?
平面设计师要被时代淘汰了吗?
怎么才能有尤雨溪一半强,该怎么学习?
你都用 Python 来做什么?
为什么都认为无GC语言一定会比有GC语言要快?