DOI:10.3389/fgene.2023.1121694
期刊:遗传学前沿
中国科学院学部:三区
影响因子:3.7 1.072
作者:张新如;王树涛;谢丽吉;朱玉辉
发布日期:2023-01-19
网址:https://doi.org/10.3389/fgene.2023.1121694
背景: 伪尿嘧啶() 有多种形式
RNA 类型中发现的最丰富的RNA 修饰之一,在许多生物过程中发挥着重要作用。研究的各种生化功能和机制的关键是确定位点。然而,通过实验确定
网站既耗时又昂贵。因此,有必要开发基于RNA序列信息准确预测位点的计算方法。方法: 在本研究中,我们提出了一种名为pseudo-st的新模型来识别智人(H. sapiens)、酿酒酵母和小家鼠
那个地点。几乎所有内容都可以在iLearnPlus 包中找到
基于对RNA-seq编码方案的全面测试,我们选择了最好的
6种编码方案和4种机器学习算法,并使用卡方和增量特征选择算法为每种编码方案选择最佳特征。然后,我们通过广泛的性能比较,为每个物种选择最佳的特征组合和最佳的基分类器组合,并采用堆叠策略来构建预测模型。
结果: 与其他现有模型相比,pseudo-st 具有更好的预测性能。该方法在H_990、S_628 和M_944 上分别实现了93.64%、87.74% 和89.64% 的伪st 准确率,比现有最佳方法在同一基准上分别提高了13.94%、6.05% 和0.26% 训练准确率高数据集。
结论:pseudo-st是一个用于鉴定智人、肌肉小鼠和酿酒链球菌RNA位点的高度竞争性预测模型。此外,我们发现基于单链的位置特异性三核苷酸倾向(PSTNPss)和基于三核苷酸的位置特异性(PS3)特征在位点识别中发挥重要作用。伪ST 的源代码和数据可在我们的GitHub 存储库(https://github.com/jluzhangxinrubio/PseU-ST) 中找到。
关键词RNA假尿嘧啶位点识别,序列分析,计算方法,机器学习,堆叠集成学习
假尿嘧啶() 是许多RNA 中最丰富的RNA 修饰之一,例如rRNA、mRNA、tRNA 和snRNA
等(Charette 和Gray,2 0 0 0)。自1957 年发现以来,对 的研究不断发展。许多研究表明 在多种生物过程中发挥着关键作用,包括维持R
NA 结构稳定性(B o o 和Kim,2020)、RNA 代谢(Carlile 等人,2014;Schwartz 等人,2014)以及rna-蛋白质或R NA -R NA 相互作用(B as ak
和查询,20 1 4)。此前的研究还发现,突变与许多癌症相关,例如美国的肺癌和胃癌(It o h et al. 1989;Penzo et al. 2017;Cao et al. 2021)。研究的各种生化功能和机制的关键是确定位点。然而,使用实验方法识别 位点既耗时又昂贵(Adachi et al. 2019)。因此,有必要开发基于RNA序列信息准确预测位点的计算方法。
近年来,人们开发了许多 位点的计算预测因子来补充实验研究。李等人。 (2 0 1 5 ) 使用支持向量机(S VM ) 算法构建了第一个计算模型P P US 用于预测酿酒链球菌和智人的 位点。同样,陈
等人。 (2 01 6 )结合假核苷酸组成和核苷酸化学特性(NC P )编码方案构建了iRNA-Ps eU SVM模型来预测2016年的位点。随后,He等人。 (2 0 1 8) 开发了另一种名为P s eUI 的SVM 分类器,它使用五种不同的编码方案提取RNA 序列特征。塔希尔等人。
接下来,我们采用堆叠策略来构建预测模型。结果表明,与其他现有模型相比,p s eu
do - st 具有更好的预测性能。因此,P
的s
eU-ST 是一种高度竞争的预测模型,用于识别智人、猪链球菌和肌肉小鼠的RNA 位点。
ps eu d o - st 整体框架设计如图1所示。 p s eu d o - st 的框架有五个主要步骤。第一步,我们从在线数据库中保存训练数据集和独立测试数据集(Chen et al. 2016)。第二步,我们用七种最流行的机器学习算法全面测试了i Learn Plus软件包中几乎所有可用的RNA序列编码方案,并选出了最好的六种编码方案和四种算法。第三步,我们使用卡方分别对六种编码方案的特征重要性进行排序,并使用IFS算法为每种编码方案选择最优特征。然后,我们使用不同的最佳特征组合构建模型,并为每个物种选择最佳特征组合。步骤4,分别建立RF、SVM、高斯朴素贝叶斯(Ga NB)和逻辑回归(LR)模型,并使用上一步选择的最优特征组合作为初步基分类(2019)建立卷积神经网络( CNN)模型,命名为iPseU-CNN,设备;使用LR作为元分类器,并使用不同的基分类器的组合来构造一个
该模型采用二进制编码方案。 2020年
2020 年,刘等人。 (2020)提出使用极限梯度增强(eXtreme Gradient
Boosting,XGBoost)算法预测位点
XG-PseU。同年,Bi 等人。 (2020) 创建了一个名为EnsemPseU 的集成模型,它集成了随机森林(RF)、SVM、朴素贝叶斯(NB)、XGBoost
和k 最近邻(KNN)。左
等; (2
02 0 ) 开发了基于射频的
方法,称为RF-P s eU
,该方法应用光学梯度增强机(li
G
ht GB M ) 算法来识别 位点。穆等人。 (20
20)提出了一种方法称为
我
PS
-莱伊
应用经典RF 预测的er 分层集成模型
站点。然后,李等人。 (2
02 1b
)提出了一种称为Po的方法
RPI
的s
e 的计算模型,选择四种最佳特征类型并将它们输入到堆叠模型中以预测 站点。 Z
H
你
安格等人。 (20
21)提出深度学习框架ps
欧盟
d
eep,王等人。 (2
02 1)同年,出现了一种新方法,称为P所以
E.
L
-Ps
eU的特征融合预测器;然而,他们的表现并不令人满意。上述现有方法在智人、链球菌中达到了79%的最佳准确率
.7 0%, 8 1.6
9
%
和8
9
.34%,还有很大的提升空间。
在这项研究中,我们提出了一种称为p s eud 的方法
邻-
st 鉴定智人、酿酒链球菌和肌链球菌中的 位点。首先,我们使用七种最流行的机器学习算法对i 进行了彻底测试
L
几乎所有的RNA序列编码方案都可以在earnPl us包中找到,并选择了最好的六种编码方案和四种机器学习算法(C u i et al. 2
02 2)。然后,我们使用卡方分别对六种编码方案的特征重要性进行排序,并使用增量特征选择(IF S)算法为每个编码方案选择最佳特征。我们使用交叉验证测试来评估和选择每个物种的特征和基本分类器的最佳组合。
系列堆叠模型并为每个物种选择基分类器的最佳组合。在第5步中,我们在5倍交叉验证和独立测试中将优化后的堆叠模型的预测性能与其他现有模型的预测性能进行了比较。
章
恩等人。 (Chen 等人,2016)来自R
米
乙
as e(Sun et al. 2016)中收集的数据集用于通过机器学习方法识别 位点。首先,通过
右
NA 序列幻灯片(2
+ 1
)-元核苷酸窗口收集中心带有尿苷(U) 的R
NA片段;当实验证实RNA样本的中心是位点时,则认为是阳性,否则认为是阴性。然后,使用CD-HIT软件筛选出配对序列同质性60%的样本与任何其他同类样本,并使用随机选择程序使阴性和阳性子集大小相同。训练数据集包含3个数据集,分别是H_9 9 0(H.s
阿皮恩
的s
), M _ 9 4 4 (M . m
我们的死
你
的s
)
和S _ 6 28 (S。切雷维
si ae)
,而独立测试数据集中只有两个物种,H_ 2 0 0 (H. s api ens ) 和S 2 0 0 (S. cerevis i ae)。训练数据集和独立测试数据集都有一半正样本和一半负样本。此外,陈等人。评估了预测器识别不同 值的基因座的性能,发现当=1 0 时,智人或m .s musculus 的准确率达到峰值,而链球菌的准确率在=时达到峰值1 5 .因此,H 9 9 0和M _ 9 4 4的RNA序列长度为21nt,S _ 62 8的RNA序列长度为31nt,h _ 2 0 0和S的RNA序列长度为21nt。 _ 20 0 长度分别为2 1 nt 和3 1 nt 。近年来,介绍中提到的模型都采取了相同的做法
表面
1 训练和独立数据集信息。
物种
数据集
长度(bp)
正样本
负样本
智人
H_990(训练)
21
第495章
第495章
H_200(测试)
21
一百。
一百。
酿酒酵母
S_628(训练)
31
314
314
S_200(测试)
31
一百。
一百。
骶肌
M_44(训练)
21
第472章
第472章
数据集。在我们的研究中,我们使用相同的数据集构建了伪ST 模型。这些数据集的详细信息如表1所示。基准数据集从http://lin-group.cn/server/iRNAPseu/data下载。
特征提取是计算模型构建的关键步骤。在我们的研究中,我们彻底测试了
i Learn Plus 包中提供了几乎所有RNA 序列编码方案(C h en et al. 2021)。然后根据它们的预测性能,选择最好的6个编码方案来确定最佳特征
组合,包括增强的核酸组成(ENAC)、二元特征、NCP、基于单链的位置特异性三核苷酸倾向(P ST NPs s )、两个核苷酸的位置特异性(PS 2 ) 和三核苷酸核苷酸位置特异性( PS 3)(Chen 等人,2017)。
ENAC
核酸组成是基于序列的固定长度窗口(默认值为5)计算的,窗口从RNA序列的5'端连续滑动到3'端,RNA序列被编码为等长的特征向量。
2.3.2
二元特征(也称为one-hot) 在二元编码中,使用四维二元向量来表示核苷酸,例如RNA 中的A、C、G、U
表2 各
核苷酸的化学结构(陈
等,2015)。
化学性质
种类
核苷酸
环形结构
嘌呤
一
G
嘧啶
CU
功能小组
氨基
交流电
酮
你
氢键
强大的
C.G.
虚弱的
一个你
它们分别编码为(1 0 0 0)、(0 1 0 0)、(0 0 1 0)、(0 0 0 1)和(0 0 0 1)。
根据化学键和化学结构的差异将RNA序列(AC GU)的四个核苷酸分为三个不同的类别,如表2所示。
根据它们不同的化学性质,我们可以用三维坐标来编码A、C、G和U,即编码
是(1 ,1 ,1
), (0,0,1
), (0 ,1 ,0
), (1,0 ,0 ) 和(1,0,0)。
PSTNPss 使用统计规则对DNA 或RNA 序列进行编码。一般而言,有43个(即64个)三核苷酸,例如AAA、AAC、AAG、U UU(TTT)。
因此,对于给定的RNA 序列L-bp 长度,三核苷酸的位置特异性定义为64 (L-2) 矩阵:
Z2,u, 当N
u 努+1 ?u +2
AAG u ?堆叠策略可以结合来自多个分类器的信息来生成更稳定的堆叠模型。这是一种非常有用的集成学习方法,已成功应用于生物信息。因此,在我们的研究中,使用H_99 0和M_94 4中的样本,其中21 -2=1 9
PST NPss 特征,S_ 62 8 中的样本用31 -2=29 PS T NPs s 表示
要编码的特征。
有16 对(即4
4) 相邻配对的核苷酸对,如AA/AT/AG…;因此,代表这样一对核苷酸的单个变量可以被编码为16个二元变量,这些变量成为二元变量。例如,AA表示为(100 00000 0000
0000),AC表示为(0100 00000 0000 000)…,AAC表示为(1000 0000 00000 0000 10000 0000 00000 0)。 PS3 以类似的方式由三个连续的核苷酸(4 4 4=64) 编码。
在计算建模中消除冗余和避免过度拟合的一种有用方法是特征选择,因为它在提高模型性能信息学方面发挥着至关重要的作用(M i s h ra 等人)
等,2019;李等人,2021a)。 p y thon (R as ch k a, 2 01 8 ) 中的“ml x t end”包提供了g 交叉验证算法中的堆栈,通过扩展g 交叉验证算法中的标准堆栈来为元级分类器准备输入数据。还。使用该算法可以实现堆叠策略。堆叠策略可以最小化多个预测模型的泛化错误率(S u et al. 20 2 0),并有效避免过拟合(Sherwan i et al. 2021)。在本研究中,我们采用堆叠策略来构建RNA 位点的预测模型。堆叠学习策略有两个主要步骤。第一步,我们构建一系列分类器,称为基分类器。第二步,我们使用上一步得到的基分类器的输出作为输入来训练另一个分类器,称为元分类器
分类器。
在我们的研究中,我们评估了七种最流行的算法:RF、LR、SVM、GaNB、自适应提升(Ad aB oo st)、XGB oo st 和梯度提升决策树(GB DT)。 RF算法是一种基于决策树的综合学习算法。它通过构建多棵决策树并进行合并,可以获得准确、稳定的预测。 RF 是生物信息学中常用的算法之一(Lv et al. 2020;El Allali et al. 2021;Yin et al. 2021)。 LR是一种广义的线性分类算法,利用sig mod函数对所有数据进行非线性映射,将预测值限制在[0,1]范围内,缩小预测范围,对样本进行分类。 LR 是一种常见的机器学习方法(Jones et al. 2021;Suresh et al. 2022)。为了有效地表示序列(Wei et al. 2020;Li and Wang, 2021;Zhu et al. 2021)。 SVM 是另一种方法。在本研究中,我们首先使用卡方检验分别对六种编码方案的特征重要性进行排序,并使用IFS算法为每个方案选择最佳特征集(Lv等人,2020;Zhang等人,2021) )。随后,我们确定最佳特征组合。我们使用堆叠集成学习模型部分中选择的最佳四种算法来训练六种编码方案的最佳特征,并根据准确性(ACC)对它们进行排名。然后我们使用排名靠前的特征来构造伪-st
模型,添加第二个特征来构建新模型,然后添加第三个特征,直到添加所有获取的特征。最后,我们为每个物种选择了最佳的特征组合。
线性分类算法是计算生物学中最流行的算法之一(Chen et al. 2016; He et al. 2018)。 SVM的决策边界是寻找一个最优的分离超平面来分割样本。 Ga NB基于贝叶斯定理,假设特征条件相互独立,利用概率和统计方法对样本数据进行分类。 Ga NB 也是一种常用的算法(Yan et al. 2020;Shah et al. 2022)。 Ad aBoost 、 X GB oost 和GB DT 都是boost 模型。使用不同的方法学习它们以形成强大的分类器。它们广泛应用于生物信息学
受试者工作曲线(AUC)(Mu et al. 2020;Li et al. 2021a;Zhang et al.
2021)。 Sn , Sp , ACC , M C C 定义如下:
2022)。
对于每个算法,我们选择默认参数进行训练。例如,对于RF,我们将树编号设置为100,将树范围设置为1 0 0 :1 0 00 :1 0 0 。对于SVM,选择rb f 作为核函数,选择1.0作为惩罚参数,惩罚范围和gamma范围分别为
1.0:
1
5
.0 :1
.0 和-
1
0
.0:
5.0:
1
.0。为了
XGB 输出
,boost参数选择g
bt ree,最大深度设置为3,惩罚范围为3 :1
0: 1 .基于这些参数,我们通过广泛的性能比较选择了最好的四种算法来训练堆叠模型。随后,我们使用最好的四种算法训练先前确定的三个物种的最佳特征组合作为候选基分类器。我们使用LR 作为元分类器来训练堆叠模型,并评估基分类器的不同组合,以选择基分类器的最佳组合作为最终模型。
我们使用几种广泛使用的性能指标来评估和比较p s eu d o - st 和其他现有方法的功能。指标包括敏感性(Sn)、特异性(Sp)、准确度(AC C)、马太相关系数(MCC)和面积
其中TP 、 TN 、 FP 和FN 分别表示真阳性、真阴性、假阳性和假阴性。我们绘制了接收器操作特性(recei v er operati
ng特征(ROC)曲线并计算AUC值。
首先,我们使用七种广泛使用的机器学习算法
我们已经彻底测试了iLearnPlus 包中几乎所有可用的工具
RNA 序列编码方案并使用默认参数为每种算法建模。然后,选择最好的6种编码方案并
用于构建堆叠模型的4 种机器学习算法。最好的6 种编码方案是
ENAC、二元特征、NC P、P S T NP ss、PS2 和PS3,最好的4 个算法分别是LR 、 RF 、 S VM 和GaNB 。对于每个算法,我们训练了六个独立的分类器特征,并根据
ACC 对它们进行排名。每个模型的AC C 如图2 所示。
如图2所示,RF对H_990和M_944的ACC最高,而LR对S_628的ACC最高。 P S T NPss 和PS3 特征对模型的贡献比其他特征更大。对于H_9 90 和M_9 4 4 ,使用P S T NPss 特征训练的RF 模型优于其他特征。而使用PS3 特征训练的LR 模型在S_628 上的表现优于其他特征。总体而言,6 个特征对模型性能的贡献顺序为: Homo sapiens PST NPs s P S3
P S2 二进制E NAC NCP , PS S 3 PS T NP ss
PS2 二进制ENAC NCP。
表面
3 三个物种的基分类器组合性 能。
物种
基分类器的组合
5折交叉验证
独立测试
ACC(%)
中冶集团(%)
锡(%)
速度(%)
曲线下面积(%)
ACC(%)
中冶集团(%)
锡(%)
速度(%)
曲线下面积(%)
智人
射频+lr
93.64
rong> 87.28 94.34 92.93 98.56 89.00 79.02 97.00 81.00 96.51 Rf + lr + SVM 93.43 86.88 94.34 92.53 98.42 86.50 73.84 94.00 79.00 95.47 RF + LR + SVM + GaNB 92.93 85.88 93.94 91.92 98.41 86.00 74.17 97.00 74.00 95.56 酿酒酵母 Rf + lr 87.74 75.49 86.94 88.54 95.95 83.50 67.00 83.00 84.00 89.00 Rf + lr + SVM 87.74 75.49 86.94 88.54 95.25 82.50 65.00 82.00 83.00 87.64 RF + LR + SVM + GaNB 88.06 76.13 86.94 89.17 95.17 81.50 63.00 81.00 82.00 86.48 m .骶 Rf + lr 89.60 79.21 90.66 88.54 96.20 Rf + lr + SVM 87.47 74.96 88.32 86.62 95.29 RF + LR + SVM + GaNB 87.37 74.74 88.11 86.62 95.28 cerevi si ae 和 P S T NP ss > PS 3 > E NAC > PS 2 > bi n ary > NC P fo r M .m us cl e us 。然而, 没有一种类型的特征在任何物种上的表现始终优于其他特征, 也没有一种算法在任何 物种上的表现始终优于其他算法。我们可以看到, 使用单一特征的单一模型并不令人满意;因此,我们可能需要整合学习策略来提高模型性能。 在实验中, 我们发现 PS3 特征对模型性能有相当大的贡献, PS 3 的特征向量维数特别高, 可达 1000 多个维数。从理论上讲,特征越多, 越有可能在有限的训练样本中提供具有较强区分能力 的 特 征 。 然 而 , 过 多 的 特 征 可 能 会 造 成 冗 余 和 “ 维数灾 难”(S u res h 等, 2022) ,从而导致模型的训练时间过长,存在过拟合的风险, 降低模型的泛化能力。特征选择可以去除一些冗余 特征,减少训练时间,选择真正相关的特征,增强模型的预测性能(Jo n es et al., 2 02 1;Z hang 等人,2021;Suresh 等人,2 022 )。 基于 LR 算法,我们采用卡方检验和 IFS 策略来确定最优特征(Dao et al ., 2 01 9;Lv 等人,20 20; Z hang et al ., 20 21 )。我们首先使用卡方检验分别对六种编码方案的特征重要性进行排序,然后设置一个完整的排序特征集,命名为 F: F = {F , F , 1 …2 F , F} , n − 1 其中 n n 表示特征数。我们通过执行 5 倍交叉验证测试,使用 IFS 测试训练数据集。在每次迭代中,IFS 将 F 中的一个特征添加到初始特征子集中,以构建 n 个特征子集。当 ACC 值达到最大值时,得到最优特征子集。PS 3 编码方案下的智人、酿酒猴和肌肉猴的 ACC 曲线如图 3 所示。当特征数为前 124 、27 6 和 11 5 时,我们对智人(H.s api ens )、猪链球菌(S. cerevisi ae)和肌肉鼠(M . mus culus )中Ψ 位点的预测准确率分别为 71 .6 2 % 、8 0.57 %和 76.86%(图 3)。 表 4 pseudo - st 与 其 他现有方法在相同基准训练数据集上的性能比较。 物种 智人 葡萄球菌 m.骶 方法 ACC(%) MCC(%) Sn(%) Sp(%) ACC(%) MCC(%) Sn(%) Sp(%) ACC(%) MCC(%) Sn(%) Sp(%) PseU-ST 93.64 87.28 94.34 92.93 87.74 75.49 86.94 88.54 89.60 79.21 90.66 88.54 PseUdeep 66.99 35.00 74.47 60.71 72.73 45.00 61.75 78.13 72.45 44.00 66.70 77.36 PsoEL-PseU 70.80 42.00 66.90 74.70 80.30 62.00 69.10 91.40 76.50 53.00 82.20 70.80 海豚 78.53 58.45 89.11 67.94 81.69 63.38 81.21 82.17 77.75 55.55 77.83 77.67 iPseU-Layer 79.70 60.00 71.18 88.22 80.08 60.00 77.92 81.82 89.34 79.00 84.68 93.76 rf-伪(10 倍) 64.30 29.00 66.10 62.60 74.80 49.00 77.20 72.40 74.80 50.00 73.10 76.50 RF-PseU(厕所) 64.00 29.00 65.90 62.60 75.80 52.00 78.20 73.40 74.50 48.00 72.70 75.20 EnsemPseU 66.28 33.00 63.46 69.09 74.16 49.00 73.88 74.45 73.85 48.00 75.43 72.25 XG-PseU 65.44 31.00 63.64 67.24 68.15 37.00 66.84 69.45 72.03 45.00 76.48 67.57 iPseU-CNN 66.68 34.00 65.00 68.78 68.15 37.00 66.36 70.45 71.81 44.00 74.79 69.11 PseUI 64.24 28.00 64.85 63.64 65.13 30.00 62.74 67.52 70.44 41.00 74.58 66.31 iRNA-PseU 60.40 21.00 61.01 59.80 64.49 29.00 64.65 64.33 69.07 38.00 73.31 64.83 注:10 折- 10 折交叉验证;LOO-leave-one-out 交叉验证。粗体值表示 pseudo - st 的性能。 表 5 pseudo - st 与 其他现有方法在相同独立测试数据集上的性能比较。 物种 智人 酿酒酵母 方法 ACC(%) MCC(%) Sn(%) Sp(%) ACC(%) MCC(%) Sn(%) Sp(%) PseU-ST 89.00 79.02 97.00 81.00 83.50 67.00 83.00 84.00 PseUdeep 66.18 33.00 73.53 58.82 80.88 62.00 77.45 84.31 PsoEL-PseU 75.50 51.00 76.00 75.00 82.00 64.00 83.00 81.00 海豚 77.35 55.13 82.30 72.40 83.50 67.27 88.00 79.00 iPseU-Layer 71.00 43.00 63.00 79.00 72.50 45.00 68.00 77.00 RF-PseU(10 倍) 75.00 50.00 78.00 72.00 77.00 54.00 75.00 79.00 RF-PseU(厕所) 74.00 48.00 74.00 74.00 74.50 49.00 70.00 79.00 EnsemPseU 69.50 39.00 73.00 66.00 75.00 51.00 85.00 65.00 XG-PseU 67.50 35.00 68.00 67.00 71.00 42.14 75.00 67.00 iPseU-CNN 69.00 40.00 77.72 60.81 73.50 47.00 68.76 77.82 PseUI 65.50 31.00 64.85 68.00 68.50 37.00 65.00 72.00 iRNA-PseU 61.50 23.00 58.00 65.00 60.00 20.00 63.00 57.00 注:10 折- 10 折交叉验证;LOO-leave-one-out 交叉验证。加粗值表示 pseudo - st 的性能。 ENAC 、二进制、NC P 和 PS 2 编码方案的 AC C 曲线如图 S 1-4 所示。最优特征为: 猿人 E NAC 8 0 分前 46 名,二进制 84 分前 23 名,NCP 63分前 34 名,PS 2 3 20 分前 1 00 名,酿酒链球菌 E NAC 1 20 分前 21 名,二进制 1 24 分前 40 名,NCP 9 3 分前 37 名,PS2 4 80 分前 11 6 名,肌肉分枝杆菌 E NAC 8 0 分前 17 名,二进制 84 分前 49 名, NCP 6 3 分前 44名,PS2 3 20 分前 63 名。PST NPss 的特征尺寸较小; 因此,选择所有PSTNPss 特征。 接下来,我们检查了特征的最佳组合。我们使用排名第一的特征构建 ps eud o - st 模型,然后添加第二个特征构建新模型,然后添加第三个特征,直到添加所有获得的特征。智人、酿酒鼠和肌肉鼠的特征组合表现见补充表 S1 。最优特征 组合为葡萄球菌 PS3 + PS T NPss , 肌鼠 PST NPss + PS 3 ,无论在 5 倍交叉验证还是独立测试中均获得了最佳的指标(补充表 S1 )。对于 H 。 PSTNPss + PS3 在 5 倍交叉验证中表现最佳,但 PST NPss+ PS3 + PS2 的 MCC 和 Sn 在独立测试中表现较好,PST NPss + PS3 + PS2+ 二进制+ENAC 的 ACC 和 Sp 在独立测试中表现较好,但分别仅高出 0 .2 8 %、 1.00 %、0 .5 %和 7%。因此,选择 PSTNPs s + PS3 作为智人的最优特征组合。