对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
docker有哪些有趣的用途?
《西虹市首富》里面想花完钱却越花越多的情况,现实里面会发生吗?
为什么Rust的包管理器Cargo这么好用?
为什么成功人士的精力都非常旺盛?
为什么明明身边二胎非常普遍,但从人口统计数据看,人口依然是在减少的?
为什么说J***a21的虚拟线程不再有阻塞的问题?
笔记方式,请推荐一个靠谱,敢用上五年都不后悔的。?
面试中被嘲笑Token放在redis里,该如何应对这种情况呢?
为什么董明珠攻击小米空调,而公牛却没有攻击小米插座?
为什么苹果不封杀「爱思助手」「iTools」这类软件?
有没有什么路由器让你用过之后彻底惊艳了?
为什么古代没有中医黑?
为什么说耿直的人更容易吃亏?
鸿蒙电脑会在国内逐渐取代windows电脑吗?
如何评价钟南山院士?
雷军为什么不愿意用性价比打法进军NAS?