您当前的位置: > 详细浏览

心血管疾病中高风险人群颈动脉粥样硬化的识别:基于机器学习的预测模型及验证

请选择邀稿期刊:

Identification of Carotid Atherosclerosis in Medium-high Risk Population of Cardiovascular Disease:Prediction Model and Validation Based on Machine Learning

摘要: 背景 颈动脉粥样硬化(CAS)常被视为心血管疾病(CVD)的预警信号,其诊断技术颈动脉多普勒超声检查没有被纳入公共卫生服务项目,同时弗雷明汉风险评分(FRS)存在着评估 CAS 风险准确性不足的情况,不利于基层医疗人员识别 CAS。目前,关于机器学习方法识别 FRS 中高风险人群 CAS 的研究依然缺乏。目的 运用机器学习方法构建 FRS 中高风险人群 CAS 预测模型,比较其判别效能,筛选出性能最优的模型,以期辅助基层医疗人员更简便更准确地识别 CAS。方法 选取 2019—2021 年和 2023 年在广西壮族自治区柳州市两乡镇符合纳排标准的674 例当地居民作为研究对象。收集相关信息,并采集空腹血样、尿样检测生化指标。采用 FRS 评估 CVD 发生风险;运用颈动脉超声诊断 CAS。将 2019—2021 年 517 例研究对象按照 8 ∶ 2 随机分为训练集和验证集,训练集用于构建Logistic 回归、随机森林(RF)、支持向量机(SVM)、极端梯度增强(XGBoost)模型和梯度增强决策树(GBDT)模型,验证集用于内部验证;2023 年 157 例研究对象作为测试集,用于外部验证。通过 Lasso 回归分析筛选特征变量,运用灵敏度、特异度、准确度、F1 值和曲线下面积(AUC)值评价判别效能,外部验证采用 AUC 值评价最优模型泛化能力,并通过 Shapley Additive exPlanation(SHAP)方法探讨影响最优模型识别 CAS 的重要变量。结果 通过 Lasso 回归,筛选出 15 个非零特征变量:年龄、BMI、收缩压(SBP)、吸烟、饮酒、高血压、总胆固醇、高密度脂蛋白胆固醇、C- 反应蛋白(CRP)、空腹血糖、载脂蛋白 B(ApoB)、脂蛋白 a(LPA)、天冬氨酸氨基转移酶(AST)、AST/ 丙氨酸氨基转移酶、尿微量白蛋白肌酐比值。构建的 Logistic 回归、RF、SVM、XGBoost 模型和 GBDT 模型的 AUC 值均较高,其中 GBDT 模型的判别性能最优,其灵敏度、特异度、准确度、F1 值和 AUC 值分别是 0.755 1、0.836 4、0.798 1、0.778 9、0.834 9,外部验证 AUC 值为 0.794 0。SHAP 方法发现年龄、SBP、CRP、LPA、ApoB 是影响 GBDT 模型识别 CAS 排名前 5 的因素。结论 基于机器学习识别 CAS 的 Logistic 回归、RF、SVM、XGBoost 模型和 GBDT 模型均显示出较高的判别性能,其中 GBDT 模型综合判别效能最佳,同时具有较强的泛化能力。

版本历史

[V1] 2024-05-20 15:10:06 ChinaXiv:202405.00235V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量178
  •  下载量59
评论
分享