背景 肿瘤风险预测对于提高人群健康水平、降低患者经济负担意义重大.但随着医疗大数据的产生,传统的统计预测方法逐渐无法满足需求,有必要尝试开展机器学习等新方法在肿瘤预测领域的应用.目的 探讨支持向量机与XGboost和逐步Logistic回归分析在成年人群肿瘤患病风险中的预测价值.方法 本研究时间为2011—2015年,数据来源于中国健康与营养调查(CHNS),以我国12个地区(黑龙江、辽宁、湖南、山东、贵州、江苏、广西、湖北、河南、北京、上海和重庆)城乡成年(≥18岁)常住居民为对象,经过数据清理,最终纳入19410人为本研究对象.将研究对象按2:1分为训练集和测试集,基于逐步Logistic回归分析的变量筛选策略,在训练集上分别建立逐步Logistic回归分析、支持向量机、XGboost肿瘤患病风险预测模型,并在测试集上进行验证.通过比较各模型受试者工作特征曲线(ROC曲线)下面积(AUC),分析各模型预测肿瘤患病风险的性能.结果 19410例研究对象中,被诊断为肿瘤患者262例(1.35%).训练集(n=12919)中含有174例肿瘤患者,测试集(n=6491)含有88例肿瘤患者.逐步Logistic回归分析、支持向量机、XGboost在测试集中预测成年人群患肿瘤的正确率分别为72.96%〔95%CI(71.86%,74.04%)〕、99.54%〔95%CI(99.34%,99.69%)〕、70.05%
作者:马倩倩;孙东旭;石金铭;何贤英;翟运开
来源:中国全科医学 2020 年 23卷 12期