不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
{dede:pagebreak/}
男朋友说我穿衣服太开放,难道好身材不应该显示出来吗?
为什么感觉四***明很空洞?
《甄嬛传》中祺贵人为什么和甄嬛反目?
中国大陆的苹果手机被阉割了哪些部分?
请问照片里这个人是谁呀?
Tauri 为什么仍未取代 Electron?
《我是歌手》至今来的歌手哪一位最悲剧?为什么?
国内大厂现在用rust的多吗?
40岁的中年人,失业一年了,出路到底在哪里?
如何看待 Rust 的应用前景?
胖东来能长久下来吗?
紧身牛仔裤看起来不正经,真的是这样吗?
小鹏车主,如果再换车还会选择小鹏吗,欢迎大家理性讨论,给正在观望准备买车的一点中肯的建议?
为何 Linus 一个人就能写出这么强的系统,中国却做不出来?
为什么欧美影视喜欢露点?
凡人修仙传#为啥只有韩立学各家技能,其他人为啥不去学?