对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
多个充电宝或电芯品牌的 3C 认证证书被暂停,涉及罗马仕、安克、绿联、倍思、安普瑞斯等,发生了什么?
为什么web worker可以在前端开多线程,解决单线程卡死页面的问题,但是没有得到广泛使用?
女性到底是厌恶键政,还是厌恶某些键政的人?
毕设答辩,老师说node不可能写后台怎么办?
伊朗宣布取得对以作战胜利,从这场冲突的现状及影响看,到底谁赢了,谁吃了大亏?
真的没有人觉得2k是一个很尴尬的分辨率吗?
折叠屏手机有哪些有用或好玩的功能,你过去不理解,现在离不开?
腾讯开源的 libco 号称千万级协程支持,那个共享栈模式原理是什么?
Docker 的应用场景在哪里?
如何看待M4单核性能吊打9950x?
你用n8n/dify搭建了哪些实用的Agent工作流?
服务器能否拒绝非浏览器发起的HTTP请求?
我国自主研发新一代 CPU 龙芯 3C6000 发布,不依赖国外授权技术和境外供应链,有何技术亮点?
你为什么在日常生活中不敢穿的太漂亮?
如何看待 Rust 的应用前景?
如何看待深圳一名初一学生跳楼,导致深圳取消初一初二期末考?