基于机器学习的原发性高血压并发脑梗死的风险预测模型

目的 利用机器学习算法构建原发性高血压并发脑梗死的风险预测模型,并探索原发性高血压患者并发脑梗死的危险因素。方法 收集重庆市7家医院2015年1月1日至2019年12月31日确诊的1 478例原发性高血压并发脑梗死患者及2 826例无脑梗死的原发性高血压患者的42项临床指标资料。采用单因素分析筛选输入指标,将4 304名患者按照7∶3随机分为训练集(n=3 012)和测试集(n=1 292),训练集的数据用于构建logistic回归、决策树、随机森林、XGBooMC3抑制剂st模型,测试集中的数据用于内部验证。计算各输入指标在4个模型中的相对重要性评分,使用阳性预测值、阴性预测值、准确度、F1值、ROC曲线的AUC值及Delong检验等评价4个模型对原发性高血压并发脑梗死的预测价值。结果 单因素分析筛选出29项差异有统计学意义的指标,基于此构建的logistic回归、决策树、随机森林和XGBoost模型预测原发性高血压并发脑梗死的AUC值均较高。Delong检验结果显示,随机森林和XGBoost模型的预测性能均优于logistic回归和决策树模型,其中XGBoost模型的阴性预测值、准确度、F1值、AUC值均最高,分别为0.780(95% CI 0.778~0.782)、0.766(95% CI 0.764~0.768)、0.603(95% CI 0.599~0.607)、0.808(95% CI 0.804~0.811)。相对重要性评分结果显示,logistic回归、决策树、随机森林epigenetics (MeSH)、XGBoost模型均提示血细胞比容、白蛋白、就诊年龄、白细胞计数、胆碱酯酶和载脂蛋白A1是原发性高血压并发脑梗死的重要影响因素。结论 基于机器学习的预测原发性高血压并发脑梗死风险的logistic回归、决策树、随机森林和XGBoost模型均有较高的诊断价值,其中XGBoost模型的综合诊断效能最佳。血细胞比容、白蛋白、就诊年龄、白细胞计数、胆碱酯酶和载脂蛋白A1可用于预测原发性高血压患者的脑梗GSI-IX死患病风险。