基于机器学习的多组学表观遗传修饰位点预测研究

表观遗传修饰是指在DNA序列不发生改变的情况下,基因表达发生了可遗传的变化,其中主要涉及核苷酸的修饰(即DNA、RNA的修饰)、和蛋白质翻译后修饰(Post-Translational Modification,PTM)等。目前,已知的表观遗传修饰类型已超过600多种,例如DNA甲基化、RNPD-0332991分子式A甲基化和蛋白质巴豆酰化等。越来越多的证据表明,表观遗传修饰通过控制基因表达来调控各种生物学过程,其在胚胎发育、组织分化和疾病发展中起着至关重要的作用。因此,对表观遗传修饰的研究是揭示各种生命现象的必要途径。表观遗传修饰研究的首要问题是如何高精度、大规模的确定生物大分子中发生修饰的位点。目前,已经有可观数量的高通量技术被开发用于修饰位点的检测和识别。然而,由于这些基于分子生物学实验的技术需要昂贵的人力和物力成本、且操作复杂,因此,这些技术在大规模全基因组、转录组和蛋白质组的应用具有一定的局限性。相较于传统的湿实验方法,基于计算的生物信息学方法可以很好地弥补上述缺陷,并且在大数据时代具有更广泛的应用前景。本文围绕表观遗传修饰研究,构建了植物表观修饰位点数据库,并提出了多个贯穿基因组、转录组到蛋白质组的修饰位点预测模型。全文的主要研究内容如下:(1)针对高通量植物表观修饰数据的存储、注释和信息挖掘问题,开发了Plant EMS综合数据库,用于分析和可视化植物中DNA、RNA和蛋白质修饰位点信息。Plant EMS集成了51种植物中4种DNA修饰类型的12,970,352个修饰位点数据、26种RNA修饰类型的23,500个修饰位点数据、以及23种PTM类型的132,085个修饰位点数据。因此,它将满足植物大分子修饰相关研究领域对设计方便、全面的分析工具的数据需求。(2)针对DNA修饰位点预测问题,提出了多物种、多类型的集成预测框架i DNA-MS。i DNA-MS使用k-tuple核苷酸频率组分、核苷酸化学性质和核苷酸频率、以及单核苷酸二进制编码策略来提取17个基因组中的序列特征。之后,利用随机森林算法识别5-羟甲基胞嘧啶、N6-甲基腺嘌呤和N4-甲基胞嘧啶位点。5折交叉验证和独立测试集的结果表明,i DNA-MS在识别17个基因组中的三种修饰位点时均能产生稳健的预测表现。此外,发现了特殊的核苷酸分布模式在甲基转移酶发挥功能时提供的潜在信号,并建立了DNA修饰与染色质构象的桥梁,为理解表观修饰机制提供了手段。基于所获得的模型,建立了一个名为i DNA-MS的网络服务器,可以在http://lin-group.cn/server/i DNA-MS上免费访问。(3)针对RNA修饰位点预测问题,利用优化特征组合策略和机器学习算法,提出了物种特异性模型i RNA-m5C和组织特异性模型i RNA-m6A。其中,i RNA-m5C能够识别人类、小鼠、酿酒酵母和拟南芥中的5-Blood and Tissue Products甲基胞嘧啶修饰位点;i RNA-m6A能够识别人类(大脑、肝脏和肾脏)、小鼠(大脑、肝脏、心脏、睾丸和肾脏)和大鼠(大脑、肝脏和肾脏)中的N6-甲基腺嘌呤修饰位点。交GNE-140浓度叉验证和独立测试集结果表明,i RNA-m5C和i RNA-m6A能够产生优越的性能。此外,发现了自然向量法可表征全局序列顺序信息,解决了修饰序列在高维空间中的表示问题,为从物种/组织层面揭示RNA修饰机制提供了关键线索。基于所提出的模型,搭建了名为i RNA-m5C和i RNA-m6A的网络服务器,可以在http://lin-group.cn/server/i RNA-m5C和http://lin-group.cn/server/i RNA-m6A上免费访问。(4)针对PTM位点预测问题,利用多模态的特征编码方法和极限梯度提升算法,提出了i Rice-MS预测模型。i Rice-MS能够识别水稻中的2-羟基异丁酰化、巴豆酰化、丙二酰化、泛素化、琥珀酰化和乙酰化修饰位点。独立测试集结果显示i Rice-MS对上述六种PTM位点识别的曲线下面积(Area Under the Curve,AUC)均超过0.84,证明了模型的鲁棒性。此外,方法间的比较分析表明,i Rice-MS在AUC值上比其它工具提高了2%到26%,体现了i Rice-MS的显著优势。基于所提出的模型,建立了一个名为i Rice-MS的网络服务器,可在http://lin-group.cn/server/i Rice-MS上免费访问。为了探索深度神经网络结合自然语言处理(Natural Language Processing,NLP)在PTM位点识别中的有效性,提出了基于卷积神经网络的巴豆酰化位点预测框架Deep-Kcr,可通过https://github.com/lin Ding-group/Deep-Kcr免费获取。Deep-Kcr将基于序列的特征、基于物理化学性质的特征和NLP方法与信息增益特征筛选方法相结合,获得了0.885的预测精度。全面的特征分析首次证明了NLP在巴豆酰化位点预测问题中的可行性。此外,发现了巴豆酰化与乙酰化之间的协同现象,证实了序列-物化-空间信息在表征修饰序列时的可行性和有效性,为理解翻译后修饰机制提供了多维度的应用方法。为了进一步探索NLP在其它类型的PTM位点预测问题中的有效性,提出了深度学习预测框架Deep IPs,用于识别感染SARS-Co V-2的宿主细胞中的磷酸化位点。Deep IPs由当下流行的NLP方法与卷积神经网络-长短期记忆网络架构结合构成,可以在https://github.com/lin Ding-group/Deep IPs上免费获取。独立测试集的结果表明,基于NLP方法的监督嵌入层能够在S/T磷酸化位点识别中获得0.887的AUC值;而Glo Ve能够在Y磷酸化位点识别中获得0.841的AUC值,充分证明了NLP在磷酸化位点识别中的优越性能。综上所述,本文面向表观遗传修饰问题进行了系统性研究。构建了植物表观修饰位点数据库Plant EMS,并提出了贯穿基因组、转录组和蛋白质组修饰位点的预测工具。针对修饰位点识别问题,探索了多种机器学习算法和特征提取方法的有效性,初步实现了表观修饰位点的精准预测,为后续实验研究提供了重要的计算工具和参考信息。