对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
你觉得《捞女游戏》会因为不可抗力而被下架吗?
忘语能靠《凡人修仙传》吃一辈子吗?
如何看待北大国发院教授卢锋称「4月青年失业率中国已远超美欧」?
不限制语言,客户端GUI开发用什么好?
如何评价B站 up主“雨琪在芬兰”?
国产手机APP为什么越来越臃肿?
MacBook的诱惑在哪里?
大家有没有「大众认为是烂片但个人却喜欢看」的影片?
小区车位10万一个,租的话一个月300元,还有必要买车位吗?
科技工作者,今年是你入行的第几年?还记得刚入行时的自己吗?若能与那个「新人」通话60s,你会聊什么?
nodejs 真的不擅长CPU密集型计算么,与c++或者 rust 差别有多大?
obsidian用一两年后会有多大?全文搜索还快吗?
为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
为什么大部分人都认为2560x1440是2K?
只能选一个,你选谁?
你都见过什么样的电脑盲?