基于m7G相关lncRNA的胃癌预后模型的构建及综合分析

目的:应用生物信息学分析工具确定Enasidenib一个基于m7G(n7-methylguanosine,m7G)甲基化修饰相关的lnc RNA的预后模型,并验证该模型预测胃癌患者生存率的准确性。方法:使用癌症基因组图谱(The Cancer Genome Atlas databasearly life infectionses,TCGA)数据库获取胃癌患者的基因表达矩阵和一般临床信息。通过“GENCODE”数据库下载包含lnc RNA的基因注释文件。从获得的基因表达矩阵中提取m7G甲基化的调控基因及胃癌患者所有lnc RNA表达数据,并使用R软件中的”corrplot”包进行Pearson相关分析,获得m7G相关的lnc RNA(R>0.3,P<0.05)。使用R软件中的"survival"包进行单变量Cox分析以筛选与胃癌患者生存相关的m7G相关lnc RNA(prognostic m7G-related lnc RNA)。使用R包"glmnet"进行最小绝对收缩和选择算子(Least absolute shrinkage and selection operator,LASSO)回归分析并且设置了10倍的交叉验证来确定预后模型并获取危险评分系数,利用多因素COX回归分析构建诺莫图(Nomogram)。根据中位风险评分系数,将胃癌患者划分为高风险组和低风险组。此外,利用Kaplan-Meier分析、单变量和多变量Cox回归分析、诺莫图的校准图、接受者操作特性(Receiver operating characteristic curve,ROC)曲线和主成分分析(Principal component analysis,PCA)来验证风险模型的可靠性。进一步使用q-PCR在体外细胞系内验证预后模型中m7G相关lnc RNA的表达情况。数据分析主要使用R软件(4.0.3版)和Perl软件(5.3版)进行。在本研究中,使用了单变量和多因素的Cox回归、Lasso回归、KaplanMeier法、PCA和ROC分析。Kruskal-Wallis检验用于比较不同组间的差异。Pearson系数用于评价相关性。P<0.05为具有统计学意义(*P<0.05,**P<0.01和***P<0.001)结果:1.本研究从TCGA数据库获取了胃癌患者样本441例,删除生存时间小于30天及表达数据和临床数据缺失样本,最终获得了包含337例样本的表达矩阵。2.从已有的研究中确定了22个基因作为m7G甲基化调控基因,通过相关性分析共筛选得到442个m7G相关lnc RNA,其中25个lnc RNA与胃癌患者生存相关(P<0.05),通过Lasso回归分析最终确定了包含7个lnc RNA(AL161785.1,LINC01094,CHROMR,AP001528.1,AC245041.1,AL355574.1,AC0PF-02341066分子量05586.1)的预后模型。3.多因素和单因素COX分析表明预测模型的危险评分是一项独立危险因素。诺莫图的矫正曲线表明该预测模型具有一定的准确性。Kaplan-Meier曲线表明高风险组生存时间较低风险组短(P<0.05)。PCA分析表明危险评分可以有效的区分高低风险人群。ROC曲线表明预测模型的危险评分预测生存时间具有一定的特异性及准确性。q-PCR结果表明CHROMR、LNC01094、AC245041.1和AL355574.1在肿瘤细胞系中的表达水平明显更高,而AC005586.1、AL16178.5和AP001528.1则相反。结论:本研究基于TCGA数据库筛选出7个与胃癌患者预后相关性较高的m7G相关lnc RNA,并基于此构建了胃癌患者预后模型。经过验证,该模型对胃癌患者预后的预测能力具有一定的准确性和特异性。目的:探索胃癌患者中基于m7G相关的lnc RNA的预后模型与临床病理特征、免疫细胞浸润、免疫检查点及化疗药物敏感性的关系。为应用该预后模型辅助判断胃癌患者的病理分期及对治疗的敏感性提供依据。方法:根据危险评分中位数对胃癌患者进行分组。使用GSEA软件(3.0版)进行基因本体论(Gene ontology,GO)和京都基因与基因组百科全书KEGG(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。从TCGA数据库收集第一部分中胃癌患者的临床病理特征数据(TNM分期,AJCC(American Joint Committee on Cancer)分期,GRADE分级,性别,年龄,生存时间),使用Perl编程语言获得免疫浸润细胞矩阵,使用R包“CIBERSORT”进行免疫浸润分析,“p RRophetic”包用于比较治疗胃癌的化疗药物的IC50值的差异。相关性分析方法同第一部分,Pearson系数于评价相关性。P<0.05为具有统计学意义(*P<0.05,**P<0.01,和***P<0.001)。结果:两组之间在肿瘤T期、N期、AJCC分期和患者年龄方面存在明显差异。免疫细胞方面,高风险组的记忆性CD4 T细胞(CD4 T cells resting)、单核细胞(monocytes)、M2型巨噬细胞(M2 macrophages)、树突状细胞(dendritic cells,DCs)、肥大细胞(mast cells resting)和中性粒细胞(neutrophils)浸润丰度较高,低风险组的M0型巨噬细胞(M0 macrophages)和滤泡辅助性T细胞(follicular helper T cells)浸润丰度较高(p<0.05)。高风险组的免疫检查点基因表达水平较低风险组高。风险评分与多西他赛(Docetaxel)和顺铂(Cisplatin)的药物半抑制浓度(IC50)呈负相关,风险评分高的患者对化疗药物的敏感性较低。结论:1.本模型可初步识别高低风险组人群的病理分级特征及肿瘤分期特征,对胃癌早期的诊断具有一定的参考价值,可以作为预测胃癌患者预后及早期诊断的生物标志物2.本研究筛选的7个lnc RNA可初步识别胃癌患者免疫细胞浸润程度及免疫检查点基因表达水平。同时提示了7个m7G相关lnc RNA与胃癌免疫浸润及免疫逃逸相关并导致肿瘤进展及预后不良,对GC进展机制的研究提供参考。3.本模型构建的风险评分可用于评价患者对多西他赛和顺铂的耐药性,有助于未来的个体化治疗决策的制定。