对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
非计算机专业,好奇为什么会出现“程序依赖bug运行”的情况?
程序员从幼稚到成熟的标志是什么?
我上大一,需要买电脑,一共9000,但我妈说她给我3000,我心里很不舒服,怎么办?
如何评价英特尔再次退出汽车业务?
如何看待 2025 浙江高考杭州二中高分段被镇海宁海学军等校「碾压」?
雷军有没有后悔当年给品牌起名叫小米?
HTTP/3 解决了什么问题,又引入了什么新问题?
你被哪个后来知道很sb的BUG困扰过一周以上吗?
如何评价英特尔再次退出汽车业务?
小区车位10万一个,租的话一个月300元,还有必要买车位吗?
Centos为什么突然没人用了?
第一次DIY装机需要注意什么?
各位都在用Docker跑些什么呢?
WebSocket 是什么原理?为什么可以实现持久连接?
2025 年 9 月 3 日天安门大阅兵,中国将对外释放出什么信号?
近期大量宣扬“西方伪史论”的账号被封,这意味着什么?