网站地图官方微信:
网站首页 河北省 六团镇 三庄乡 莱溪乡 宫前乡 吉塘镇

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | 把贵州省撤销,设立一个超大型国家自然公园,是不是一个好的提法? |

    不开玩笑,认真的说 贵州的定位到底是什么? 一.战略要地,控...

    查看详情>>
  • | 中国为什么要每隔10年搞一次大阅兵? |

  • | 女生到底应不应该穿***的衣服? |

  • | 大家有没有「大众认为是烂片但个人却喜欢看」的影片? |

  • | 同身高体重亚洲人体格比欧美人小很多?是骨架的问题吗? |

  • | 什么是 5G 固定无线接入(FWA)? |

  • | 网络小白如何建立一个网站,供别人下载文件(主要是PDF和MP3)? |

  • | 到底有什么是 Node.js 无法实现的? |

  • | 月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点? |

  • | 为什么几乎没人用电视屏幕连主机或者笔记本当显示器? |

  • | 现在php还有前途吗? |

  • 当你需要做一个项目,github正好有一个的时候,如果是st...

    2025-06-28
  • 个人博客是不必要备案的。 很多人由于认知局限,以为只能使用国...

    2025-06-28
  • 今天正好发布了《中国气候变化蓝皮书(2025)》 里面的...

    2025-06-28
  • 肯定要搞啊。 这里给你讲下思路,后端先把spring cl...

    2025-06-28

关注我们

添加微信好友,关注最新动态