对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
写了一个《没钱修什么仙》职场版,被五个编辑退了,大家指点一下为什么不能签?
我的儿子随我姓,为啥婆家反应那么大?
女生到底应不应该穿***的衣服?
你生活中做过最自律的一件事是什么?
你自己觉得自己的身材好吗?
买到烂尾楼到底该有多绝望?
如何评价鸿蒙电脑无法编写其自身运行的程序?
为什么现在的年轻人更容易觉得疲惫?
为什么中国农村房子那么丑?
央行行长潘功胜首次在公开场合谈及稳定币,稳定币是什么?有何深意?
怎样方便快捷的把录音转成文字?
广西可以摆烂吗?
韩国掀起打「增高针」风潮,增高针真的能增高吗?会对身体产生哪些影响?
月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?
MacOS真的比Windows流畅吗?
如何看待 2025 年多地推出升级版「禁酒令」,明确规定工作餐不得提供高档菜肴、烟酒?