当前位置: 首页 > article >正文

神经网络

“损失函数

王木头学科学-哔哩哔哩_bilibili




一、transformer和注意力机制的本质,以及编码和解码的结构及其与注意力机制的关系,帮助理解transformer的优势和应用场景。

00:01 - 介绍transformer是人工智能主流技术,大语言模型GBT是在其基础上做出来的。

01:20 - 从transformer的大结构开始理解,注意力机制和编解码结构是理解的关键。

03:04 - 编解码结构和注意力机制的关系类似于计算机硬件里的冯诺依曼架构和显卡之间的关系。

二、分词器和编码器在处理语义时的缺陷,提出了使用前空间来协调编解码的想法,并解释了矩阵和空间变换的关系。

08:21 - 编解码的码需要数字化和数字化后的数值体现语义相对关系 09:18 - 独热编码的问题是信息密度过于稀疏,无法体现token之间的语义联系

11:09 - 矩阵相乘可以看作是一种空间变换,对transformer来说非常重要

三、向量和矩阵相乘的效果,以及二次型的概念和矩阵的行列式的意义。同时也讨论了线性代数中的一些概念和应用。

16:40 - 矩阵的乘法是线性变化过程,代表空间变换

17:54 - 向量和矩阵相乘可以对应到新空间里的图像,矩阵表示空间变换

19:20 - 线性代数应该先介绍矩阵和空间变换的对应关系,避免行列式的积角旮旯概念

四、神经网络和矩阵的区别,以及如何通过增加神经元实现升维和降维,以及编码和解码的过程。

25:00 - 神经网络和矩阵的区别

26:43 - 隐藏层的作用是让模型更复杂,数据升维操作

28:32 - 神经网络的层数代表了对数据特征进行抽象的程度

五、前空间的概念和如何通过机器学习的方法将真实语言中的token投射到前空间中,以及编码和解码的原理和训练方法。

33:20 - 卷积神经网络(CNN)的升维和降维过程

33:58 - 前空间和翻译手册的区别,可连续和对应关系

36:13 - 谷歌论文提出的两种调整思路:COO和skip gram

六、机器翻译中注意力机制的原理和计算方式,通过对词向量进行升维和降维操作,计算出注意力得分并进行缩放,最终得到输出词向量。


http://www.kler.cn/a/504846.html

相关文章:

  • 【 PID 算法 】PID 算法基础
  • 数据结构《MapSet哈希表》
  • abap安装cl_json类
  • day09_kafka高级
  • E12.【C语言】练习:求两个数的最大公约数
  • 行业案例:高德服务单元化方案和架构实践
  • TCP 连接状态标识 | SYN, FIN, ACK, PSH, RST, URG
  • 链路追踪SkyWalking
  • Shell正则表达式与文本处理三剑客(grep、sed、awk)
  • MongoDB 大俗大雅,高端的知识讲“通俗” -- 2 嵌套和引用
  • 科研总结系列|2-GPT学术写作提示词集锦手册
  • mysql 双主双从 + proxysql 代理
  • fpga系列 HDL:跨时钟域同步 双触发器同步器
  • 在 Webpack 中使用 预加载(Preloading) 技术可以通过动态导入(import())以及指定预加载的方式来进行优化
  • 新版AndroidStudio通过系统快捷创建带BottomNavigationView的项目踩坑记录
  • 服务器、电脑和移动手机操作系统
  • HDMI接口
  • 代码随想录算法训练营第十三天(2)|541. 反转字符串II
  • 在服务器上增加新网段IP的路由配置
  • msxml安装失败怎么办,如何解决
  • 如何通过 Zero Trust 模型防止内外部威胁?
  • H3CNE-12-静态路由(一)
  • hot100_240. 搜索二维矩阵 II
  • Spring boot面试题---- Spring Boot 自动配置的原理
  • 数字人助力企业出海增长,魔珐科技亮相2025晋江跨境电商峰会
  • LeetCode:131. 分割回文串