当前位置: 首页 > article >正文

PlncRNA-HDeep:使用基于两种编码风格的混合深度学习进行植物长非编码 RNA 预测

长链非编码 RNA (lncRNAs) 在调控生物活动中起着重要作用,其预测对探索生物过程具有重要意义。长短期记忆 (LSTM) 和卷积神经网络 (CNN) 可以自动从编码的 RNA 序列中提取和学习抽象信息,以避免复杂的特征工程。集成模型从多个角度学习信息,并显示出比单个模型更好的性能。将 RNA 序列分别视为句子和图像来训练 LSTM 和 CNN,然后将训练好的模型杂交以预测 lncRNAs,这是可行且有趣的。到目前为止,lncRNAs 有多种预测因子,但很少有预测因子被提议用于植物。一个可靠而强大的植物 lncRNA 预测因子是必要的。

1.编码方式

One-hot 是一种常见的编码样式 [30]。这里 one-hot 编码的规则是这样的,A 被编码为 (1, 0, 0, 0)T,T 编码为 (0, 1, 0, 0)T,C 编码为 (0, 0, 1, 0)TG 编码为 (0, 0, 0, 1)T.然后将每个样本序列编码成一个 4 行 N 列的 0-1 矩阵(类似于二维灰度图像),其中 N 被设置为所有样本中最长的序列长度。对于那些序列长度小于 N 的样本,对其空列执行零填充(图 D)。4b)。
在这里插入图片描述

2模型结构

lncRNA-LSTM 是我们之前研究中构建的基于 LSTM 的模型 [29]。其架构包含一个词嵌入层、一个双向 LSTM 层和一个全连接层。在双向 LSTM 层中,单位设置为 64,dropout rate 设置为 0.4。在全连接层中,选择“sigmoid”作为激活函数。选择二进制交叉熵损失函数来计算损失,该函数使用 “Adam” 优化器进行优化。每层的参数都通过反向传播进行更新。每个 p 核苷酸编码的样本序列都输入为 4p-维向量转化为 lncRNA-LSTM。与 [29] 中 lncRNA-LSTM 的概述不同,这里的输出被映射到 [0, 1] 区间以获得置信概率而不是标签。它的值表明相应样本被预测为 lncRNA 的置信度(图 D)。5).

在这里插入图片描述

在这里插入图片描述

混合深度学习
分别训练 lncRNA-LSTM 和 CNN,用于预测输入样本序列以输出置信度概率。然后,他们根据三种混合策略在决策层面进行混合。

PlncRNA-HDeep 的源代码和使用的数据集可在 https://github.com/kangzhai/PlncRNA-HDeep 获得。


http://www.kler.cn/a/403565.html

相关文章:

  • 基于大数据爬虫数据挖掘技术+Python的网络用户购物行为分析与可视化平台(源码+论文+PPT+部署文档教程等)
  • React第十六章(useLayoutEffect)
  • JDK安装和Linux常见设置详细版教程
  • 机器翻译基础与模型 之一: 基于RNN的模型
  • Flutter:photo_view图片预览功能
  • Spring Boot教程之四:在IntelliJ IDEA 以及 Eclips IDE中创建和配置Spring Boot
  • 5、深入剖析PyTorch DataLoader源码
  • 8-表的定义
  • 如何在 Ubuntu 上设置 SSH X11 转发并访问远程图形界面
  • Quality minus junk论文阅读
  • PyTorch基础学习01_创建张量常见属性数据转换图像
  • vue+node+Express+xlsx+emements-plus实现导入excel,并且将数据保存到数据库
  • 002创建ASP.NET Core项目-数据库优先
  • C++算法练习-day41——700二叉搜索树中的搜索
  • RFdiffusion EuclideanDiffuser类解读
  • 缓存cache
  • Apache和HTTPS证书的生成与安装
  • 用遗传算法优化的网络学习改进算法
  • 斯坦福UC伯克利开源突破性视觉场景生成与编辑技术,精准描绘3D/4D世界!
  • MySQL:联合查询(2)
  • PH热榜 | 2024-11-19
  • 组件注册:局部(app.vue,import,components,组件标签)全局(main.js,import,vue.component,-组件标签)
  • CRM系统安全性排名:数据保护能力评估
  • 深入探索Golang的GMP调度机制:源码解析与实现原理
  • 【Linux】Namespace
  • Linux的权限