基于矩阵推断的snoRNA与疾病关联预测

snoRNA是一种较短的非编码RNA,其长度通常在60到300个核苷酸之间。snoRNA不直接编码蛋白质,而是参与其他RNA的转录后修饰进而调控蛋白质的翻译。有广泛文献报道snoRNA参与调控两类转录后化学修饰,即C/D Box snoRNA引导的甲基化修饰以及H/ACA Box snoRNA引导的伪尿苷化修饰。此外也有文献报道snoRNA可能具有类似siRNA通过靶向结合mRNA进而抑制其表达的功能。由于snoRNA参与了比较底层的生物学过程,因此snoRNA也被报道与多种疾病有关联,传统研究snoRNA与某类疾病的关联的方式,通常需要采集病人的组织样本,并通过RNA测序等方式来研究两者之间的关联程度。随着snDS-3201半抑制浓度oRNA研究的发展,许多公共可获取的snoRNA-疾病关联被收集整理到专门的数据库中,这奠定了通过计算的方法来预测snoRNA-疾病关联的基础。通过计算的方法进行关联预测不能够确证snoRNA与疾病之间的关联,但是通过合理的算法得到的预测结果对于研究人员的筛选研究目标是有参考价值的。目前进行snoRNA-疾病关联预测的研究还比较少,文本探索了使用矩阵补全的方法来预测snoRNA-疾病关联。通过从RNADisease数据库中收集实验确证的snoRNA-疾病关联,可以分离出涉及的snoRNA和疾病。随后,从公共数据库中下载snoRNA的核酸序列,并使用3-mer、Z曲线核苷酸频率算法以及互信息算法提取5种snoRNA序列数值特征;遍PS-341 IC50历snoRNA并利用Tanimoto相似性系数的绝对值来计算两两之间的相似性,构建snoplant microbiomeRNA相似性矩阵。此外,通过检索所有疾病在MeSH数据库以及DO数据库中的拓扑结构,为每个疾病构建一个有向无环图,基于有向无环图计算疾病之间的语义相似性并构建疾病相似性矩阵。本文在广泛应用的疾病语义相似性计算方法的基础上,提出了一种改进的语义相似性的计算方法,使用本文计算出的相似性值分布更加离散,包含更多信息量。基于snoRNA相似性矩阵以及疾病相似性矩阵,本文分别为机器学习算法以及矩阵补全算法构建了2种输入数据集,分别用于两类模型的计算。机器学习算法主要使用了随机森林、逻辑斯特回归、多层感知机以及支持向量机模型,而矩阵补全算法主要探索了一种有界核范数正则化的矩阵补全方法,该方法能够将输出值限制在一定的区间,并对已观测的关联加以约束,比较适合关联预测问题。通过使用机器学习领域的评价指标,本文的机器学习模型的AUROC值普遍高于0.83,而矩阵补全的AUROC值高达0.95,并且在本文探索的问题中更重要的敏感度指标,即1类样本的召回率,在机器学习模型以及矩阵补全模型分别为0.84以及0.89。这些指标说明本文构建的关联预测模型具有良好的预测性能。