对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
你的鱼缸里养过什么奇怪的鱼?
为什么人到中年,很少有身材苗条的?
你身边身材最好的女生是什么样?
“哨兵模式”涉嫌泄密,你支持封杀特斯拉吗?
为什么女性内衣很少有人穿前扣的?
中国女篮张子宇身高 2 米 26 制霸赛场,身高因素在篮球比赛中能占多大优势?她会是下一个「姚明」吗?
如何评价《鸣潮》新角色「卡提希娅」?
一名女子在杭州万象城遭挟持被捅 20 多刀,隆胸***体救了一命,这反映出哪些公共安全问题?
做个web服务器,gin框架和go-zero怎么选?
为什么我觉得中国很谦虚,甚至有时候感觉中国对其他国家过分宽容,外国人却认为中国是列强呢?
如何看待现在的前端?
为什么有的女生喜欢穿紧身牛仔裤?
陌生人晕倒了,帮他拨打120后,病人不支付120出车费,这个费用谁来承担?
奇瑞与长安哪个质量更好一些?
全班 43 人开家长会只来了 7 位爸爸,学校称未来准备策划爸爸家长会,如何看待这一现象?
2029年中国能载人登上月球吗?