论文解读:《Pseudo-ST: A New Stacked Ensemble Learning Method to recognize RNA Pseudo-Uracil Sites》

人工智能 2023-08-11 17:53:11
50阅读

DOI:10.3389/fgene.2023.1121694

期刊:遗传学前沿

中国科学院学部:三区

影响因子:3.7 1.072

作者:张新如;王树涛;谢丽吉;朱玉辉

发布日期:2023-01-19

网址:https://doi.org/10.3389/fgene.2023.1121694

摘要

背景: 伪尿嘧啶() 有多种形式

RNA 类型中发现的最丰富的RNA 修饰之一,在许多生物过程中发挥着重要作用。研究的各种生化功能和机制的关键是确定位点。然而,通过实验确定

网站既耗时又昂贵。因此,有必要开发基于RNA序列信息准确预测位点的计算方法。方法: 在本研究中,我们提出了一种名为pseudo-st的新模型来识别智人(H. sapiens)、酿酒酵母和小家鼠

那个地点。几乎所有内容都可以在iLearnPlus 包中找到

基于对RNA-seq编码方案的全面测试,我们选择了最好的

6种编码方案和4种机器学习算法,并使用卡方和增量特征选择算法为每种编码方案选择最佳特征。然后,我们通过广泛的性能比较,为每个物种选择最佳的特征组合和最佳的基分类器组合,并采用堆叠策略来构建预测模型。

结果: 与其他现有模型相比,pseudo-st 具有更好的预测性能。该方法在H_990、S_628 和M_944 上分别实现了93.64%、87.74% 和89.64% 的伪st 准确率,比现有最佳方法在同一基准上分别提高了13.94%、6.05% 和0.26% 训练准确率高数据集。

结论:pseudo-st是一个用于鉴定智人、肌肉小鼠和酿酒链球菌RNA位点的高度竞争性预测模型。此外,我们发现基于单链的位置特异性三核苷酸倾向(PSTNPss)和基于三核苷酸的位置特异性(PS3)特征在位点识别中发挥重要作用。伪ST 的源代码和数据可在我们的GitHub 存储库(https://github.com/jluzhangxinrubio/PseU-ST) 中找到。

关键词RNA假尿嘧啶位点识别,序列分析,计算方法,机器学习,堆叠集成学习

1 介绍

假尿嘧啶() 是许多RNA 中最丰富的RNA 修饰之一,例如rRNA、mRNA、tRNA 和snRNA

等(Charette 和Gray,2 0 0 0)。自1957 年发现以来,对 的研究不断发展。许多研究表明 在多种生物过程中发挥着关键作用,包括维持R

NA 结构稳定性(B o o 和Kim,2020)、RNA 代谢(Carlile 等人,2014;Schwartz 等人,2014)以及rna-蛋白质或R NA -R NA 相互作用(B as ak

和查询,20 1 4)。此前的研究还发现,突变与许多癌症相关,例如美国的肺癌和胃癌(It o h et al. 1989;Penzo et al. 2017;Cao et al. 2021)。研究的各种生化功能和机制的关键是确定位点。然而,使用实验方法识别 位点既耗时又昂贵(Adachi et al. 2019)。因此,有必要开发基于RNA序列信息准确预测位点的计算方法。

近年来,人们开发了许多 位点的计算预测因子来补充实验研究。李等人。 (2 0 1 5 ) 使用支持向量机(S VM ) 算法构建了第一个计算模型P P US 用于预测酿酒链球菌和智人的 位点。同样,陈

等人。 (2 01 6 )结合假核苷酸组成和核苷酸化学特性(NC P )编码方案构建了iRNA-Ps eU SVM模型来预测2016年的位点。随后,He等人。 (2 0 1 8) 开发了另一种名为P s eUI 的SVM 分类器,它使用五种不同的编码方案提取RNA 序列特征。塔希尔等人。

接下来,我们采用堆叠策略来构建预测模型。结果表明,与其他现有模型相比,p s eu

do - st 具有更好的预测性能。因此,P

的s

eU-ST 是一种高度竞争的预测模型,用于识别智人、猪链球菌和肌肉小鼠的RNA 位点。

2 材料和方法

2.1pseudo-st 的框架

ps eu d o - st 整体框架设计如图1所示。 p s eu d o - st 的框架有五个主要步骤。第一步,我们从在线数据库中保存训练数据集和独立测试数据集(Chen et al. 2016)。第二步,我们用七种最流行的机器学习算法全面测试了i Learn Plus软件包中几乎所有可用的RNA序列编码方案,并选出了最好的六种编码方案和四种算法。第三步,我们使用卡方分别对六种编码方案的特征重要性进行排序,并使用IFS算法为每种编码方案选择最优特征。然后,我们使用不同的最佳特征组合构建模型,并为每个物种选择最佳特征组合。步骤4,分别建立RF、SVM、高斯朴素贝叶斯(Ga NB)和逻辑回归(LR)模型,并使用上一步选择的最优特征组合作为初步基分类(2019)建立卷积神经网络( CNN)模型,命名为iPseU-CNN,设备;使用LR作为元分类器,并使用不同的基分类器的组合来构造一个

该模型采用二进制编码方案。 2020年

2020 年,刘等人。 (2020)提出使用极限梯度增强(eXtreme Gradient

Boosting,XGBoost)算法预测位点

XG-PseU。同年,Bi 等人。 (2020) 创建了一个名为EnsemPseU 的集成模型,它集成了随机森林(RF)、SVM、朴素贝叶斯(NB)、XGBoost

和k 最近邻(KNN)。左

等; (2

02 0 ) 开发了基于射频的

方法,称为RF-P s eU

,该方法应用光学梯度增强机(li

G

ht GB M ) 算法来识别 位点。穆等人。 (20

20)提出了一种方法称为

PS

-莱伊

应用经典RF 预测的er 分层集成模型

站点。然后,李等人。 (2

02 1b

)提出了一种称为Po的方法

RPI

的s

e 的计算模型,选择四种最佳特征类型并将它们输入到堆叠模型中以预测 站点。 Z

H

安格等人。 (20

21)提出深度学习框架ps

欧盟

d

eep,王等人。 (2

02 1)同年,出现了一种新方法,称为P所以

E.

L

-Ps

eU的特征融合预测器;然而,他们的表现并不令人满意。上述现有方法在智人、链球菌中达到了79%的最佳准确率

.7 0%, 8 1.6

9

%

和8

9

.34%,还有很大的提升空间。

在这项研究中,我们提出了一种称为p s eud 的方法

邻-

st 鉴定智人、酿酒链球菌和肌链球菌中的 位点。首先,我们使用七种最流行的机器学习算法对i 进行了彻底测试

L

几乎所有的RNA序列编码方案都可以在earnPl us包中找到,并选择了最好的六种编码方案和四种机器学习算法(C u i et al. 2

02 2)。然后,我们使用卡方分别对六种编码方案的特征重要性进行排序,并使用增量特征选择(IF S)算法为每个编码方案选择最佳特征。我们使用交叉验证测试来评估和选择每个物种的特征和基本分类器的最佳组合。

系列堆叠模型并为每个物种选择基分类器的最佳组合。在第5步中,我们在5倍交叉验证和独立测试中将优化后的堆叠模型的预测性能与其他现有模型的预测性能进行了比较。

2.2数据集收集

恩等人。 (Chen 等人,2016)来自R

as e(Sun et al. 2016)中收集的数据集用于通过机器学习方法识别 位点。首先,通过

NA 序列幻灯片(2

+ 1

)-元核苷酸窗口收集中心带有尿苷(U) 的R

NA片段;当实验证实RNA样本的中心是位点时,则认为是阳性,否则认为是阴性。然后,使用CD-HIT软件筛选出配对序列同质性60%的样本与任何其他同类样本,并使用随机选择程序使阴性和阳性子集大小相同。训练数据集包含3个数据集,分别是H_9 9 0(H.s

阿皮恩

的s

), M _ 9 4 4 (M . m

我们的死

的s

和S _ 6 28 (S。切雷维

si ae)

,而独立测试数据集中只有两个物种,H_ 2 0 0 (H. s api ens ) 和S 2 0 0 (S. cerevis i ae)。训练数据集和独立测试数据集都有一半正样本和一半负样本。此外,陈等人。评估了预测器识别不同 值的基因座的性能,发现当=1 0 时,智人或m .s musculus 的准确率达到峰值,而链球菌的准确率在=时达到峰值1 5 .因此,H 9 9 0和M _ 9 4 4的RNA序列长度为21nt,S _ 62 8的RNA序列长度为31nt,h _ 2 0 0和S的RNA序列长度为21nt。 _ 20 0 长度分别为2 1 nt 和3 1 nt 。近年来,介绍中提到的模型都采取了相同的做法

论文解读:《Pseudo-ST:一种新的堆叠集成学习方法来识别 RNA  伪尿嘧啶位点》_数据集

表面

1 训练和独立数据集信息。

物种

数据集

长度(bp)

正样本

负样本

智人

H_990(训练)

21

第495章

第495章

H_200(测试)

21

一百。

一百。

酿酒酵母

S_628(训练)

31

314

314

S_200(测试)

31

一百。

一百。

骶肌

M_44(训练)

21

第472章

第472章

数据集。在我们的研究中,我们使用相同的数据集构建了伪ST 模型。这些数据集的详细信息如表1所示。基准数据集从http://lin-group.cn/server/iRNAPseu/data下载。

2.3特征提取

特征提取是计算模型构建的关键步骤。在我们的研究中,我们彻底测试了

i Learn Plus 包中提供了几乎所有RNA 序列编码方案(C h en et al. 2021)。然后根据它们的预测性能,选择最好的6个编码方案来确定最佳特征

组合,包括增强的核酸组成(ENAC)、二元特征、NCP、基于单链的位置特异性三核苷酸倾向(P ST NPs s )、两个核苷酸的位置特异性(PS 2 ) 和三核苷酸核苷酸位置特异性( PS 3)(Chen 等人,2017)。

2.3.1增强的核酸组成

ENAC

核酸组成是基于序列的固定长度窗口(默认值为5)计算的,窗口从RNA序列的5'端连续滑动到3'端,RNA序列被编码为等长的特征向量。

2.3.2

二元特征(也称为one-hot) 在二元编码中,使用四维二元向量来表示核苷酸,例如RNA 中的A、C、G、U

表2 各

核苷酸的化学结构(陈

等,2015)

化学性质

种类

核苷酸

环形结构

嘌呤

G

嘧啶

CU

功能小组

氨基

交流电

氢键

强大的

C.G.

虚弱的

一个你

它们分别编码为(1 0 0 0)、(0 1 0 0)、(0 0 1 0)、(0 0 0 1)和(0 0 0 1)。

2.3.3 核苷酸的化学性质

根据化学键和化学结构的差异将RNA序列(AC GU)的四个核苷酸分为三个不同的类别,如表2所示。

根据它们不同的化学性质,我们可以用三维坐标来编码A、C、G和U,即编码

是(1 ,1 ,1

), (0,0,1

), (0 ,1 ,0

), (1,0 ,0 ) 和(1,0,0)。

2.3.4 基于单链的位置特异性三核苷酸倾向

PSTNPss 使用统计规则对DNA 或RNA 序列进行编码。一般而言,有43个(即64个)三核苷酸,例如AAA、AAC、AAG、U UU(TTT)。

因此,对于给定的RNA 序列L-bp 长度,三核苷酸的位置特异性定义为64 (L-2) 矩阵:

2.5堆叠集成学习模型

Z2,u, 当N

u 努+1 ?u +2

AAG u ?堆叠策略可以结合来自多个分类器的信息来生成更稳定的堆叠模型。这是一种非常有用的集成学习方法,已成功应用于生物信息。因此,在我们的研究中,使用H_99 0和M_94 4中的样本,其中21 -2=1 9

PST NPss 特征,S_ 62 8 中的样本用31 -2=29 PS T NPs s 表示

要编码的特征。

2.3.5 两个核苷酸特异性位点( PS2) 和三个核苷酸特异性位点(PS3)

有16 对(即4

4) 相邻配对的核苷酸对,如AA/AT/AG…;因此,代表这样一对核苷酸的单个变量可以被编码为16个二元变量,这些变量成为二元变量。例如,AA表示为(100 00000 0000

0000),AC表示为(0100 00000 0000 000)…,AAC表示为(1000 0000 00000 0000 10000 0000 00000 0)。 PS3 以类似的方式由三个连续的核苷酸(4 4 4=64) 编码。

2.4特征选择

在计算建模中消除冗余和避免过度拟合的一种有用方法是特征选择,因为它在提高模型性能信息学方面发挥着至关重要的作用(M i s h ra 等人)

等,2019;李等人,2021a)。 p y thon (R as ch k a, 2 01 8 ) 中的“ml x t end”包提供了g 交叉验证算法中的堆栈,通过扩展g 交叉验证算法中的标准堆栈来为元级分类器准备输入数据。还。使用该算法可以实现堆叠策略。堆叠策略可以最小化多个预测模型的泛化错误率(S u et al. 20 2 0),并有效避免过拟合(Sherwan i et al. 2021)。在本研究中,我们采用堆叠策略来构建RNA 位点的预测模型。堆叠学习策略有两个主要步骤。第一步,我们构建一系列分类器,称为基分类器。第二步,我们使用上一步得到的基分类器的输出作为输入来训练另一个分类器,称为元分类器

分类器。

在我们的研究中,我们评估了七种最流行的算法:RF、LR、SVM、GaNB、自适应提升(Ad aB oo st)、XGB oo st 和梯度提升决策树(GB DT)。 RF算法是一种基于决策树的综合学习算法。它通过构建多棵决策树并进行合并,可以获得准确、稳定的预测。 RF 是生物信息学中常用的算法之一(Lv et al. 2020;El Allali et al. 2021;Yin et al. 2021)。 LR是一种广义的线性分类算法,利用sig mod函数对所有数据进行非线性映射,将预测值限制在[0,1]范围内,缩小预测范围,对样本进行分类。 LR 是一种常见的机器学习方法(Jones et al. 2021;Suresh et al. 2022)。为了有效地表示序列(Wei et al. 2020;Li and Wang, 2021;Zhu et al. 2021)。 SVM 是另一种方法。在本研究中,我们首先使用卡方检验分别对六种编码方案的特征重要性进行排序,并使用IFS算法为每个方案选择最佳特征集(Lv等人,2020;Zhang等人,2021) )。随后,我们确定最佳特征组合。我们使用堆叠集成学习模型部分中选择的最佳四种算法来训练六种编码方案的最佳特征,并根据准确性(ACC)对它们进行排名。然后我们使用排名靠前的特征来构造伪-st

模型,添加第二个特征来构建新模型,然后添加第三个特征,直到添加所有获取的特征。最后,我们为每个物种选择了最佳的特征组合。

线性分类算法是计算生物学中最流行的算法之一(Chen et al. 2016; He et al. 2018)。 SVM的决策边界是寻找一个最优的分离超平面来分割样本。 Ga NB基于贝叶斯定理,假设特征条件相互独立,利用概率和统计方法对样本数据进行分类。 Ga NB 也是一种常用的算法(Yan et al. 2020;Shah et al. 2022)。 Ad aBoost 、 X GB oost 和GB DT 都是boost 模型。使用不同的方法学习它们以形成强大的分类器。它们广泛应用于生物信息学

受试者工作曲线(AUC)(Mu et al. 2020;Li et al. 2021a;Zhang et al.

2021)。 Sn , Sp , ACC , M C C 定义如下:

2022)。

对于每个算法,我们选择默认参数进行训练。例如,对于RF,我们将树编号设置为100,将树范围设置为1 0 0 :1 0 00 :1 0 0 。对于SVM,选择rb f 作为核函数,选择1.0作为惩罚参数,惩罚范围和gamma范围分别为

1.0:

1

5

.0 :1

.0 和-

1

0

.0:

5.0:

1

.0。为了

XGB 输出

,boost参数选择g

bt ree,最大深度设置为3,惩罚范围为3 :1

0: 1 .基于这些参数,我们通过广泛的性能比较选择了最好的四种算法来训练堆叠模型。随后,我们使用最好的四种算法训练先前确定的三个物种的最佳特征组合作为候选基分类器。我们使用LR 作为元分类器来训练堆叠模型,并评估基分类器的不同组合,以选择基分类器的最佳组合作为最终模型。

2.6 评价指标

我们使用几种广泛使用的性能指标来评估和比较p s eu d o - st 和其他现有方法的功能。指标包括敏感性(Sn)、特异性(Sp)、准确度(AC C)、马太相关系数(MCC)和面积

其中TP 、 TN 、 FP 和FN 分别表示真阳性、真阴性、假阳性和假阴性。我们绘制了接收器操作特性(recei v er operati

ng特征(ROC)曲线并计算AUC值。

3 结果与讨论

3.1确定最优特征组合

首先,我们使用七种广泛使用的机器学习算法

我们已经彻底测试了iLearnPlus 包中几乎所有可用的工具

RNA 序列编码方案并使用默认参数为每种算法建模。然后,选择最好的6种编码方案并

用于构建堆叠模型的4 种机器学习算法。最好的6 种编码方案是

ENAC、二元特征、NC P、P S T NP ss、PS2 和PS3,最好的4 个算法分别是LR 、 RF 、 S VM 和GaNB 。对于每个算法,我们训练了六个独立的分类器特征,并根据

ACC 对它们进行排名。每个模型的AC C 如图2 所示。

论文解读:《Pseudo-ST:一种新的堆叠集成学习方法来识别 RNA  伪尿嘧啶位点》_数据集_02

如图2所示,RF对H_990和M_944的ACC最高,而LR对S_628的ACC最高。 P S T NPss 和PS3 特征对模型的贡献比其他特征更大。对于H_9 90 和M_9 4 4 ,使用P S T NPss 特征训练的RF 模型优于其他特征。而使用PS3 特征训练的LR 模型在S_628 上的表现优于其他特征。总体而言,6 个特征对模型性能的贡献顺序为: Homo sapiens PST NPs s P S3

P S2 二进制E NAC NCP , PS S 3 PS T NP ss

PS2 二进制ENAC NCP。

表面

3 三个物种的基分类器组合性 能。

物种

基分类器的组合

5折交叉验证

独立测试

ACC(%)

中冶集团(%)

锡(%)

速度(%)

曲线下面积(%)

ACC(%)

中冶集团(%)

锡(%)

速度(%)

曲线下面积(%)

智人

射频+lr

93.64

rong> 87.28 94.34 92.93 98.56 89.00 79.02 97.00 81.00 96.51 Rf + lr + SVM 93.43 86.88 94.34 92.53 98.42 86.50 73.84 94.00 79.00 95.47 RF + LR + SVM + GaNB 92.93 85.88 93.94 91.92 98.41 86.00 74.17 97.00 74.00 95.56 酿酒酵母 Rf + lr 87.74 75.49 86.94 88.54 95.95 83.50 67.00 83.00 84.00 89.00 Rf + lr + SVM 87.74 75.49 86.94 88.54 95.25 82.50 65.00 82.00 83.00 87.64 RF + LR + SVM + GaNB 88.06 76.13 86.94 89.17 95.17 81.50 63.00 81.00 82.00 86.48 m .骶 Rf + lr 89.60 79.21 90.66 88.54 96.20 Rf + lr + SVM 87.47 74.96 88.32 86.62 95.29 RF + LR + SVM + GaNB 87.37 74.74 88.11 86.62 95.28 cerevi si ae 和 P S T NP ss > PS 3 > E NAC > PS 2 > bi n ary > NC P fo r M .m us cl e us 。然而, 没有一种类型的特征在任何物种上的表现始终优于其他特征, 也没有一种算法在任何 物种上的表现始终优于其他算法。我们可以看到, 使用单一特征的单一模型并不令人满意;因此,我们可能需要整合学习策略来提高模型性能。 在实验中, 我们发现 PS3 特征对模型性能有相当大的贡献, PS 3 的特征向量维数特别高, 可达 1000 多个维数。从理论上讲,特征越多, 越有可能在有限的训练样本中提供具有较强区分能力 的 特 征 。 然 而 , 过 多 的 特 征 可 能 会 造 成 冗 余 和 “ 维数灾 难”(S u res h 等, 2022) ,从而导致模型的训练时间过长,存在过拟合的风险, 降低模型的泛化能力。特征选择可以去除一些冗余 特征,减少训练时间,选择真正相关的特征,增强模型的预测性能(Jo n es et al., 2 02 1;Z hang 等人,2021;Suresh 等人,2 022 )。 基于 LR  算法,我们采用卡方检验和 IFS  策略来确定最优特征(Dao et al ., 2 01 9;Lv 等人,20 20; Z hang et al ., 20 21 )。我们首先使用卡方检验分别对六种编码方案的特征重要性进行排序,然后设置一个完整的排序特征集,命名为 F: F  =  {F , F , 1 …2 F , F} , n − 1  其中 n n 表示特征数。我们通过执行 5  倍交叉验证测试,使用 IFS  测试训练数据集。在每次迭代中,IFS 将 F 中的一个特征添加到初始特征子集中,以构建 n 个特征子集。当 ACC  值达到最大值时,得到最优特征子集。PS 3 编码方案下的智人、酿酒猴和肌肉猴的 ACC  曲线如图 3  所示。当特征数为前 124 、27 6 和 11 5 时,我们对智人(H.s api ens )、猪链球菌(S.  cerevisi ae)和肌肉鼠(M .  mus culus )中Ψ 位点的预测准确率分别为 71 .6 2 % 、8 0.57 %和 76.86%(图 3)。 表 4 pseudo - st 与 其 他现有方法在相同基准训练数据集上的性能比较。 物种 智人 葡萄球菌 m.骶 方法 ACC(%) MCC(%) Sn(%) Sp(%) ACC(%) MCC(%) Sn(%) Sp(%) ACC(%) MCC(%) Sn(%) Sp(%) PseU-ST 93.64 87.28 94.34 92.93 87.74 75.49 86.94 88.54 89.60 79.21 90.66 88.54 PseUdeep 66.99 35.00 74.47 60.71 72.73 45.00 61.75 78.13 72.45 44.00 66.70 77.36 PsoEL-PseU 70.80 42.00 66.90 74.70 80.30 62.00 69.10 91.40 76.50 53.00 82.20 70.80 海豚 78.53 58.45 89.11 67.94 81.69 63.38 81.21 82.17 77.75 55.55 77.83 77.67 iPseU-Layer 79.70 60.00 71.18 88.22 80.08 60.00 77.92 81.82 89.34 79.00 84.68 93.76 rf-伪(10 倍) 64.30 29.00 66.10 62.60 74.80 49.00 77.20 72.40 74.80 50.00 73.10 76.50 RF-PseU(厕所) 64.00 29.00 65.90 62.60 75.80 52.00 78.20 73.40 74.50 48.00 72.70 75.20 EnsemPseU 66.28 33.00 63.46 69.09 74.16 49.00 73.88 74.45 73.85 48.00 75.43 72.25 XG-PseU 65.44 31.00 63.64 67.24 68.15 37.00 66.84 69.45 72.03 45.00 76.48 67.57 iPseU-CNN 66.68 34.00 65.00 68.78 68.15 37.00 66.36 70.45 71.81 44.00 74.79 69.11 PseUI 64.24 28.00 64.85 63.64 65.13 30.00 62.74 67.52 70.44 41.00 74.58 66.31 iRNA-PseU 60.40 21.00 61.01 59.80 64.49 29.00 64.65 64.33 69.07 38.00 73.31 64.83 注:10 折- 10 折交叉验证;LOO-leave-one-out 交叉验证。粗体值表示 pseudo - st 的性能。 表 5 pseudo - st 与 其他现有方法在相同独立测试数据集上的性能比较。 物种 智人 酿酒酵母 方法 ACC(%) MCC(%) Sn(%) Sp(%) ACC(%) MCC(%) Sn(%) Sp(%) PseU-ST 89.00 79.02 97.00 81.00 83.50 67.00 83.00 84.00 PseUdeep 66.18 33.00 73.53 58.82 80.88 62.00 77.45 84.31 PsoEL-PseU 75.50 51.00 76.00 75.00 82.00 64.00 83.00 81.00 海豚 77.35 55.13 82.30 72.40 83.50 67.27 88.00 79.00 iPseU-Layer 71.00 43.00 63.00 79.00 72.50 45.00 68.00 77.00 RF-PseU(10 倍) 75.00 50.00 78.00 72.00 77.00 54.00 75.00 79.00 RF-PseU(厕所) 74.00 48.00 74.00 74.00 74.50 49.00 70.00 79.00 EnsemPseU 69.50 39.00 73.00 66.00 75.00 51.00 85.00 65.00 XG-PseU 67.50 35.00 68.00 67.00 71.00 42.14 75.00 67.00 iPseU-CNN 69.00 40.00 77.72 60.81 73.50 47.00 68.76 77.82 PseUI 65.50 31.00 64.85 68.00 68.50 37.00 65.00 72.00 iRNA-PseU 61.50 23.00 58.00 65.00 60.00 20.00 63.00 57.00 注:10 折- 10 折交叉验证;LOO-leave-one-out 交叉验证。加粗值表示 pseudo - st 的性能。 ENAC 、二进制、NC P 和 PS 2 编码方案的 AC C 曲线如图 S 1-4 所示。最优特征为: 猿人 E NAC 8 0 分前 46 名,二进制 84 分前 23 名,NCP 63分前 34 名,PS 2 3 20 分前 1 00 名,酿酒链球菌 E NAC 1 20 分前 21 名,二进制 1 24 分前 40 名,NCP 9 3 分前 37 名,PS2 4 80 分前 11 6 名,肌肉分枝杆菌 E NAC 8 0 分前 17 名,二进制 84 分前 49 名, NCP 6 3 分前 44名,PS2 3 20 分前 63 名。PST NPss 的特征尺寸较小; 因此,选择所有PSTNPss 特征。 接下来,我们检查了特征的最佳组合。我们使用排名第一的特征构建 ps eud o - st 模型,然后添加第二个特征构建新模型,然后添加第三个特征,直到添加所有获得的特征。智人、酿酒鼠和肌肉鼠的特征组合表现见补充表 S1 。最优特征 组合为葡萄球菌 PS3  +  PS T NPss , 肌鼠 PST NPss +  PS 3 ,无论在 5 倍交叉验证还是独立测试中均获得了最佳的指标(补充表 S1 )。对于 H 。 PSTNPss + PS3 在 5 倍交叉验证中表现最佳,但 PST NPss+ PS3 + PS2 的 MCC 和 Sn 在独立测试中表现较好,PST NPss + PS3 + PS2+ 二进制+ENAC 的 ACC 和 Sp 在独立测试中表现较好,但分别仅高出 0 .2 8 %、 1.00 %、0 .5 %和 7%。因此,选择 PSTNPs s + PS3 作为智人的最优特征组合。

3.2 基分类器组合的评估

我们使用 st acki ng 策略构建集成学习模型。首先,我们使用前步 选择的最优特征组合分别构建 RF 、LR 、S VM 和 GaNB 模型作为候 选基分类器, 即智人 (H. sapi ens ) 为 PS T NPss + PS 3 , 猪链球菌(S .cerevi si ae)为 P S3 + PS T NP ss ,肌肉鼠(M . m us culu s)为 P S T NPss + P S3 。我们比较了每个物种的四种模型的性能,并根据 AC C 对它们进行了 排名。图 4 展示了四个模型对每个物种的表现。四种模型对每个物 种的最佳表现依次为 RF 、LR 、S VM 和 GaNB (图 4)。RF 模型的表 现都很好, 但在智人 和猪链球菌中存在明显的过拟合, 因此我们采 用叠加策略。我们使用 LR 作为元分类器来训练堆叠模型,以确定最 优基分类器。我们评估了三种不同的碱基分类器组合,即 R F + LR , RF + LR + S VM 和 RF + L R + S VM + GaNB 。表 3 列出了每个物种的 三种组合的性能。对于智人, RF + LR 组合在交叉验证或独立测试 中均取得了所有指标的最佳性能(表 3)。对于 m .s mu s cul us ,R F + LR 组合在交叉验证中也取得了所有指标的最佳性能。对于酿酒酵母, RF + LR + S VM + GaNB 组合在交叉验证中几乎所有指标的性能都最 好,但在独立测试中, RF + LR 组合在所有指标上的性能都最好。 对比两种组合的性能发现,在交叉验证中, R F + LR + S VM + GaNB 组合的 AC C 、MC C 和 Sp 分别比 R F + LR 组合高 0 .3 2 % 、0 .6 4 % 和0.6 3 % ,但 AUC 比 RF + L R 组合低 0 .78 %,且 Sn 相等。在独立测试中, RF + LR 的各项性能指标均优于 RF + LR + S VM + GaNB ,其中 AC C 、M C C 、Sn 、Sp 和 AUC 分别高出 2 .0 0 % 、4 .00 % 、2 .00 %、2.0 0 % 和 2.5 2 % 。因此,选择 R F + LR 作为酿酒酵母的最佳碱基分类器组合。 我们进一步绘制 R OC 曲线来评估不同组合的基分类 器和堆叠模型的 性能。如图 5 所示,在交叉验证中,R F + L R 组合在智人(H. s api en s)、葡萄球菌(S. cerevis i ae)和肌肉鼠(M . m us cul us )三个物种的 AUC 均达 到了最佳性能,分别为 9 8 .56 % 、9 5 .9 5 % 和 9 6 .2 0 % 。综上所述,我们 选择 R F + LR 作为堆叠模型的最佳基分类器组合,并将该堆叠模型 命名为 pseud o - st。

3.3  与其他现有模型的比较方法

为了进一步检查 p s eu d o - st 的性能,我们将其与使用相同基准训练的其他现有方法进行了比较,如表 4 、5 所示。如表 4 所示,与使用相同训练数据集的其他现有方法相比, p s eu d o - st 在所有三个物种的三个重要度量中表现最好,即 AC C , MC C 和 Sn 。对于 H_ 9 9 0,ps eud o - st 的 AC C 和 M C C 分别比第二优方法 i Ps eU -L ay er 高 1 3 .9 4 %和 2 7 .2 8 % 。p s eu do - st 的 Sn 值比第二优的鼠海豚法高 5 .2 3 %。对于 S_ 62 8 ,ps eud o - st 的 ACC 、M C C 和 Sn 分别比次优方法鼠海豚高6.0 5 % 、1 2 .1 1 % 和 5 .73 %。对于 M _ 9 44 , p s eud o - st 方法的 AC C 、M CC 和 Sn 分别比 iP s eU -L ay er 方法高 0 .26 % 、0 .2 1 % 和 5 .9 8 %。此外,对于 H_ 9 9 0, p s eud o - st 方法的 Sp 值比第二优方法 iPs eU -L ay er方法高 4.71 % 。 为了检查 p s eu d o - st 模型是否受到过 拟合的影响,我们对独立测试数据集进行了独立测试以验证模型。p s eu d o - st 与其他现有方法的性能比较如表 5 所示。 如所示, p s eu d o - st 在 H_ 2 0 0 的所有四个测量中表现最好。p s eu d o - st 的 AC C 、M C C 和 Sn 分别比次优法鼠海豚高 1 1 .6 5 % 、2 3 .8 9 % 和 1 4 .7 0 % ,p s eu d o - st 的 Sp 比次优法 iPseU -L ay er 高 2 .0 0 %。 此外,独立验证和交叉验证的预测效果差异不大, p s eu d o - st 对H_2 0 0 的 AC C 和 M C C 分别为 8 9 .0 0 % 和 7 9 .02 % ,与 H_ 9 9 0 的 9 3 .64 %和 8 7 .2 8 % 接近。p s eu do - st 在 S_ 2 00 上的 AC C 值为 8 3 .5 %,M CC值为 6 7 .0 0 % ,与 S _ 62 8 (分别为 8 7 .7 4 % 和 7 5 .49 %)非常接近,没有过拟合。                           论文解读:《Pseudo-ST:一种新的堆叠集成学习方法来识别 RNA 伪尿嘧啶位点》_数据集_03

4 结论

在我们的研究中,开发了一种新的称为PseU-ST(可在https://github.com/jluzhangxinrubio/PseU-ST获得)的堆叠集成学习方法,用于鉴定智人、酿酒酵母和小家鼠中的RNA位点,具有更稳定和准确的性能。我们彻底评估了iLearnPlus软件包中几乎所有可用的RNA序列编码方案,并测试了七种最流行的机器学习算法,以确定最佳特征和最佳基础分类器组合。最后,我们为这三个物种分别开发了一个优化模型。由于采用了堆叠策略和最优特征选择算法,PseU-ST在交叉验证和独立测试中均取得了比现有模型更好的性能。此外,我们解释了pseus-ST模型的特征重要性,其中PSTNPss特征显示出发挥了重要作用。 这项研究中使用的策略是通用的,它们可以用来预测其他DNA/RNA修饰位点,如DNA N4-甲基胞嘧啶和5-甲基胞嘧啶位点。我们相信PseU-ST将成为一个强有力的工具,促进社区范围的工作,以确定ψ位点,并为生物学验证提供高质量的确定的ψ位点
the end
免责声明:本文不代表本站的观点和立场,如有侵权请联系本站删除!本站仅提供信息存储空间服务。