基于因果发现推断基因调控网络的方法研究

基因调控网络同时作为生物学和计算机科学的研究要点有双重意义。在生物学领域,基因调控网络为生物学家深入理解细胞生化进程和驱动细胞原型的分子相互作用提供了关键的线索。而在计算机科学领域,基因调控网络也是提出新型计算方法的一个重要驱动力。从基因表达矩阵出发进行逆向分析是推断基因调控网络的一个有效途径,高通量技术的发展也为基因调控网络推断提供了大量的数据。不仅如此,研究人员不断提出各种新的计算方法,也提供了解决该任务的新思路。从计算层面考虑,基因调控网络中的节点能够被简化为转录因子与目标基因两大类。推断基因调控网络,换而言之,即识别系统中是否存在某转录因子与某目标基因之间的调控关系。在相关研究持续开展的几十年中,有许多经典的机器学习方法与模型能够被用来处理此任务,例如,回归分析、随机森林、特征选择、贝叶斯网络等。转录因子与目标基因之间的因果关系不言而喻,但上述方法多从相关性角度推断基因调控网络,相关关系与因果关系在揭示数据生成以及寻找底层机制上有本质的区别,使用相关关系进行分析无疑会降低推断的准确性,而因果方法对于基因调控网络推断具有天然优势。针对从因果关系层面推断基因调控网络,本文开展的主要工作如下:(1)本文融合因果发现与图神经网络提出了一个新的名为GRINCD的框架,它通过成对变量的因果发现模型来推断基因之间的因果调控关系。GRINCD首先使用图神经insurance medicine网络为每个基因生成有效的向量表示。然后,利用加性噪声模型对两两基因之间的因果关系进行预测。(2)本文在大量不同类型和规模的数据集上全面对比了GRINCD和各种优秀方法的表现,并且采用了多种性能对比指标。其结果表明GRINCD在各种评估指标下均能够取得更好的或具有可比性的成绩。(3)在仅使用转录因子作为系统中基因的一致性实验中,本文探索了GRINCD在转录因子调控Nirmatrelvir体内关系发现上和其他方法之间的表现差异。其结果表明GRINCD能和其他优秀方法一样取得不错的结果。获悉更多本文还设计了其他实验包括消融实验、框架有效性验证实验等,从各个层面描述了GRINCD的能力。(4)在将GRINCD应用于探索炎症性肠病向结直肠癌转变过程中基因调控网络的变化时,本文提取了单调性变化最显著的调控关系,从而识别出部分重要转录因子,并获得了相关研究工作的佐证。其结果表明基因调控网络在癌症发展的不同阶段存在明显差异,而与差异关联的调控因子是需要被关注的重要基因。