对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
如果世界末日以全球高温的形式出现,那应如何自救?
目前最具性价比的全栈路线是啥?
FastApi性能是否真的接近Go?
媒体称以色列防空成本一晚近 3 亿美元,最多再撑 12 天,美方会支援吗?若无美补给结果会如何?
相对于Go,哪些领域是.NET做不到或做不好的?
Gemini 2.5 Flash 和Pro稳定版上线,和之前版本相比,在性能和应用场景上有哪些提升?
男医生在给年轻靓丽的女性检查时会是什么心态?
以色列伊朗持续多日空对空轰炸,谁会先撑不住?双方的***还能支撑多久?还有哪些「杀手锏」没投入战场?
韦神这么厉害为什么不去参加最强大脑?
超级喜欢穿短裙正常吗?
graalvm为啥国内没有流行起来,go写起来实在太恶心了,难道任凭go独霸云原生?
维护一个大型开源项目是怎样的体验?
低功耗web服务器 迷你主机 小型服务器 求推荐?
有什么树莓派的代替品吗?
为什么Dreamwe***er,FrontPage会被淘汰?
你在什么情况下需要写 shell ?