对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
go 有哪些成熟点的后台管理框架?
MacOS真的比Windows流畅吗?
有网友称相机电池不能上飞机了,哪怕是原厂电池只要没有 3C 标志就不行,是真的吗?这规定合理吗?
能分享一下你写过的rust项目吗?
为什么提傅首尔面相而忽略一件事情本质呢?
千元级的全闪 NAS,会是未来的趋势吗?
有个身高175cm女友是什么体验?
为什么Steam Deck能做好Windows游戏转译但是Apple Mac就做不好?
为什么长得漂亮却没什么用?
小腿能粗到什么地步?
为什么 mac mini 的 m4 版本价格这么低呢?
《武林外传》中有哪些值得学习的职场关系?
《碟中谍 8》都有哪些槽点?
为什么章若楠和杨超越长得很像,男人却更喜欢章若楠,认为有女人味,而觉得杨超越像小女孩?
你们学校的校花都是怎么样的?
MacOS真的比Windows流畅吗?