有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
{dede:pagebreak/}
儿子抑郁四年左右了,他的未来该怎么办?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
我弟弟做桌面运维工作的,好像只会简单的数据库增删改查备份恢复和打印机电脑的维护等一年多没工作了咋办?
NAS噪音太大,大家都吧NAS放置到哪了?
你们的腰突是怎么突然好的?
vue + tsx 的开发体验能追得上 react+tsx么?
你后悔娶了现在老婆吗?
Golang与Rust哪个语言会是今后的主流?
为什么不用rust重写Nginx?
用PHP写了个小框架,怎么才能得到大佬们的指点?
是什么原因让你一定要用 iPhone?
女生到底应不应该穿***的衣服?
搭建家庭 NAS 服务器有什么好方案?
如何将Windows11的中文用户名改为英文?
华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势?
和女生合租,都会发生什么事情?