不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
{dede:pagebreak/}
深圳的人口最终会剩下多少?
27寸显示器有必要上4K吗?
为什么章若楠和杨超越长得很像,男人却更喜欢章若楠,认为有女人味,而觉得杨超越像小女孩?
理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
照骗能骗到什么程度?
为什么Mac连个正儿八经的CAD都装不了还敢打着生产力的旗号?
为什么有的程序员很抗拒使用Ai?
在武汉的你,择偶的标准是什么?
索尼互动娱乐宣布 PS6 的开发工作已经全面启动,你会如何期待索尼的下一代游戏主机呢?
什么是 AI Agent(智能体)?
你身边身材最好的女生是什么样?
学计算机的要把这些书都全部看完吗?
如何判断鱼缸中的硝化系统是否已经成功建立?
为什么现在的年轻人更容易觉得疲惫?
postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?