当前位置：首页 > article >正文

PlncRNA-HDeep：使用基于两种编码风格的混合深度学习进行植物长非编码 RNA 预测

article 2025/4/2 9:12:42

长链非编码 RNA （lncRNAs）在调控生物活动中起着重要作用，其预测对探索生物过程具有重要意义。长短期记忆（LSTM）和卷积神经网络（CNN）可以自动从编码的 RNA 序列中提取和学习抽象信息，以避免复杂的特征工程。集成模型从多个角度学习信息，并显示出比单个模型更好的性能。将 RNA 序列分别视为句子和图像来训练 LSTM 和 CNN，然后将训练好的模型杂交以预测 lncRNAs，这是可行且有趣的。到目前为止，lncRNAs 有多种预测因子，但很少有预测因子被提议用于植物。一个可靠而强大的植物 lncRNA 预测因子是必要的。

1.编码方式

One-hot 是一种常见的编码样式 [30]。这里 one-hot 编码的规则是这样的，A 被编码为（1， 0， 0， 0）T，T 编码为（0， 1， 0， 0）T，C 编码为（0， 0， 1， 0）TG 编码为（0， 0， 0， 1）T.然后将每个样本序列编码成一个 4 行 N 列的 0-1 矩阵（类似于二维灰度图像），其中 N 被设置为所有样本中最长的序列长度。对于那些序列长度小于 N 的样本，对其空列执行零填充（图 D）。4b）。
在这里插入图片描述

2模型结构

lncRNA-LSTM 是我们之前研究中构建的基于 LSTM 的模型 [29]。其架构包含一个词嵌入层、一个双向 LSTM 层和一个全连接层。在双向 LSTM 层中，单位设置为 64，dropout rate 设置为 0.4。在全连接层中，选择“sigmoid”作为激活函数。选择二进制交叉熵损失函数来计算损失，该函数使用 “Adam” 优化器进行优化。每层的参数都通过反向传播进行更新。每个 p 核苷酸编码的样本序列都输入为 4p-维向量转化为 lncRNA-LSTM。与 [29] 中 lncRNA-LSTM 的概述不同，这里的输出被映射到 [0， 1] 区间以获得置信概率而不是标签。它的值表明相应样本被预测为 lncRNA 的置信度（图 D）。5）.

在这里插入图片描述