当前位置: 首页 > article >正文

ESM蛋白质语言模型系列

模型总览

  • 第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b

  • 第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个对齐位置的影响,充分利用二维输入的优势。

  • 第三篇《Language models enable zero-shot prediction of the effects of mutations on protein function 》中提出了ESM-1v模型,该模型与ESM-1b模型构架相同,只是预训练数据集改为UR90(ESM-1b预训练数据集为UR50)

  • 第四篇《Language models of protein sequences at the scale of evolution enable accurate structure prediction》,ESMFold,提出了ESM2,代替MSA部分和Structure Template部分,对Postion Embedding做了修改,可以支持更长的氨基酸序列编码

模型名称input普适性模型论文
ESM-1bsingle sequencefamily-specifictransformer encoderBiological structure and function emerge from scaling unsupervised learning to 250 million protein sequences
ESM-MSA-1bMSAfew-shot加了两个行列注意力机制MSA Transformer
ESM-1vsingle sequencezero-shottransformer encoderLanguage models enable zero-shot prediction of the effects of mutations on protein function
ESM-2single sequencezero-shottransformer encoderLanguage models of protein sequences at the scale of evolution enable accurate structure prediction

ESM-1B的模型大小如下所示
在这里插入图片描述

ESM2模型大小如下所示(esm-github截图):
在这里插入图片描述

ESM-2 embedding(不同于word2vec,和BERT一样?):

Bert输入Embeddings包含三个部分,第一部分为token的embeddings,第二部分为位置编码的embeddings,第三部分为token所属段落编码的embeddings

  • tokenizer(由wordpiece创建)对输入蛋白会头尾添加cls、eos特殊字符,占两个字符长度 ,加Padding Token [PAD]
  • tokenizer会创建固定大小的词汇表,进行分词,查词汇表将token转化成索引列表

tokenizer首先检查整个单词是否在词汇表中。如果没有,则尝试将单词分解为词汇表中包含的尽可能大的子单词,最后将单词分解为单个字符。注意,由于这个原因,我们总是可以将一个单词表示为至少是它的单个字符的集合
self.word_embeddings = nn.Embedding(config.vocab_size, config.hidden_size, padding_idx=0),相同位置输出相同
将这3个ID序列输入到BERT中就会按照BERT模型的定义依次将各种ID转换为对应的embedding
Token Embeddings, (1, n, 768) ,词的向量表示
Segment Embeddings, (1, n, 768),辅助BERT区别句子对中的两个句子的向量表示,EMS2将蛋白质视为几个句子?
Position Embeddings ,(1, n, 768) ,让BERT学习到输入的顺序属性

  • 分词后送入token embedding层从而将每一个词转换成向量形式

ESM-2 output:

和BERT一样


http://www.kler.cn/news/108963.html

相关文章:

  • 202310-MetaPhlAn4安装和使用方法-Anaconda3- centos9 stream
  • Anaconda下载和安装
  • hdlbits系列verilog解答(8位宽移位寄存器)-24
  • LangChain+LLM实战---BERT主要的创新之处和注意力机制中的QKV
  • MyBatis-Plus 实战教程四 idea插件
  • IP地址与代理ip在网络安全中的关键作用
  • 震惊!图文并茂——Java后端如何响应不同格式的数据给前端(带源码)
  • 信息系统项目管理师教程 第四版【第5章-信息系统工程-思维导图】
  • 简单而高效:使用PHP爬虫从网易音乐获取音频的方法
  • 在Go中处理时间数据
  • C++STL----list的模拟实现
  • React Hooks还有哪些常用的用法?
  • Unable to find GatewayFilterFactory with name TokenRelay
  • Pytorch使用torch.utils.data.random_split拆分数据集,拆分后的数据集状况
  • Android 主题 vs 样式
  • 正确部署Baichuan2(Ubuntu20.4) 步骤及可能出现的问题
  • RateLimiter限流
  • 安装pandas报错
  • [毕设记录]@开题调研:外文博客搬运整理
  • 比较 opacity: 0、visibility: hidden、display: none
  • Hive SQL的编译过程
  • M1安装OpenPLC Editor
  • 2318.不同骰子序列的数目
  • 在Linux上使用Docker实现应用程序打包和分发
  • Day10力扣打卡
  • DIANA算法c++实现
  • Annotorious入门教程:图片注释工具
  • React 生成传递给无障碍属性的唯一 ID
  • 【Git企业开发】第一节.Git 初识
  • 队列(Queue)概念+通过单、双链表来模拟队列+环形队列+OJ面试题(用队列实现栈、用栈实现队列、设计环形队列)