-
基于XGBoost机器学习算法的肺结节浸润性预测模型构建与验证:一项双中心研究
编辑人员丨5天前
目的 采用XGBoost机器学习算法构建一个临床影像模型,预测肺结节病理浸润性,并在一个外部验证组中对模型进行泛化性验证.方法 回顾性纳入CT诊断为孤立性肺结节患者248例,分别提取肺结节区域和结节周围3mm、5mm区域的放射组学特征.经过从粗到细的特征选择后,使用最小绝对收缩和选择算子(LASSO)方法计算Radscore.采用单因素和多因素Logistic回归分析筛选与肺结节浸润性相关的临床放射学因素.然后,利用Logistic和XGBoost算法构建临床-放射组学联合模型,在一个独立的外部验证组(n=147)中评估模型的泛化性能.结果 综合Radscore、CT值、肺结节长度、月牙征的临床放射学XGBoost联合模型对肺结节浸润性的预测效果优于放射组学模型、临床放射学Logistic联合模型,在训练队列中的曲线下面积AUC为0.889(95%CI,0.848~0.927),在外部验证组中曲线下面积AUC为0.889(95%CI,0.823~0.942).结论 我们采用XGBoost机器学习算法构建了一种预测肺结节浸润性的临床放射学模型,结果显示出令人满意的预测效能,并在一个独立外部验证组中得到了良好的泛化性验证,可以帮助临床医生指导肺结节的诊疗并制定评估策略.
...不再出现此类内容
编辑人员丨5天前
-
可视化影像决策模型在评估肺结节浸润程度中的价值
编辑人员丨5天前
目的:探讨基于临床资料、影像征象和影像组学特征构建的联合模型在术前对肺结节浸润程度的预测价值,并通过决策热图及Shapley算法对模型进行可视化分析.方法:回顾性搜集2018年1月—2022年3月在本院经病理确诊的179例肺结节患者的临床资料和术前CT图像(肺窗平扫).根据肺肿瘤新分类,分为腺体前驱病变组(78例)和浸润性肺腺癌组(101例).采用Deepwise软件,分别提取瘤灶、瘤周3 mm和5 mm区域的影像组学特征.使用单因素分析、相关性分析、Boruta算法和逐步logistic回归分析等特征筛选算法确定各区域的最佳组学特征,然后采用logistics方法分别构建3个单区域及2个多区域(肿瘤+瘤周3 mm及肿瘤+瘤周5 mm)共5个影像组学模型,分析各模型的预测效能并计算其影像组学评分(Radsocre).通过单因素和多因素logistic回归方法筛选相关临床指标和结节的主要CT征象,并采用XGBoost算法将筛选出的高危因素结合瘤灶+瘤周3 mm联合模型的影像组学得分构建临床影像联合模型.额外收集浙江省嘉兴市中医医院经病理证实的69例肺结节患者的临床和CT资料来完成联合模型的泛化性验证.利用决策热图和Shapley算法对模型分别进行可视化和特征贡献度分析.结果:相比单区域影像组学模型(训练集:AUC=0.740、0753、0.768;验证集:AUC=0.841、0.856、0.809),多区域影像组学模型在两个数据集中均显示出更高的预测效能(AUC=0.878和0.834).XGBoost联合模型的预测效能得到进一步地提高(AUC=0.948和0.886).Shap-ley分析显示影像组学得分、CT值和结节长度为预测肺结节浸润程度的最重要的3个特征.决策热图算法实现了对浸润性预测推演过程的可视化.结论:XGBoost模型对肺结节浸润性的评估具有较高的准确性和泛化性.决策热图实现了可解释机器学习算法的可视化从而保障了模型的实用性,为肺结节的临床处理及管理提供了一种无创性的辅助诊断工具.
...不再出现此类内容
编辑人员丨5天前
-
基于静脉期增强CT影像组学的机器学习模型术前预测局部进展期胃癌脉管侵犯
编辑人员丨5天前
目的:评估基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌脉管侵犯(VI)的价值。方法:回顾性分析2011年7月至2020年12月郑州大学第一附属医院经病理证实的296例局部进展期胃癌患者,VI阳性213例、阴性83例,采用分层抽样方法按7∶3的比例将数据分为训练集(207例)和测试集(89例)。记录患者临床特征,采用多因素logistic回归筛选胃癌VI的独立危险因素。利用Pyradiomics软件提取肿瘤静脉期CT影像组学特征,采用最小绝对收缩和选择算法(LASSO)进行特征筛选,得到最优特征子集,建立影像组学标签。使用极端梯度提升(XGBoost)、逻辑回归(logistic)、朴素贝叶斯(GNB)和支持向量机(SVM)4种机器学习算法,对影像组学标签和筛选出的临床独立危险因素构建预测模型。采用受试者操作特征曲线评估模型预测胃癌VI的效能。结果:分化程度(OR=13.651,95%CI 7.265~25.650, P=0.003)、Lauren分型(OR=1.349,95%CI 1.011~1.799, P=0.042)和CA199(OR=1.796,95%CI 1.406~2.186, P=0.044)是预测局部进展期胃癌VI的独立危险因素。基于静脉期增强CT图像提取了864个影像组学特征,经LASSO筛选出18个最优特征构建组学标签。训练集中,XGBoost、logistic、GNB和SVM模型预测胃癌VI的曲线下面积(AUC)分别为0.914(95%CI 0.875~0.953)、0.897(95%CI 0.853~0.940)、0.880(95%CI 0.832~0.928)和0.814(95%CI 0.755~0.873),测试集中分别是0.870(95%CI 0.769~0.971)、0.877(95%CI 0.788~0.964)、0.859(95%CI 0.755~0.961)和0.773(95%CI 0.647~0.898)。logistic模型在测试集中AUC最大且稳定性高。 结论:基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌VI均具有较高的效能,其中logistic模型的诊断效能最佳。
...不再出现此类内容
编辑人员丨5天前
-
基于SHAP值特征选择的γ通过率分类预测及解释
编辑人员丨5天前
目的:探索SHAP值结合极端梯度提升树(XGBoost)算法的特征选择技术来构建调强放疗γ通过率预测模型的可行性和有效性,并给出相应的模型解释。方法:回顾性分析2020年11月至2021年11月在湖南省肿瘤医院接受盆腔固定野调强放射治疗的196例肿瘤患者采用基于模体测量方式的调强放疗计划的剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的影像组学特征并使用SHAP值结合XGBoost算法进行特征筛选后构建预测模型。分别选取特征数量为50、80、110、140个,构建四种机器学习分类模型,计算曲线下面积(AUC)值、召回率及F1分数评估预测模型的分类性能。结果:基于SHAP值特征选择的110个特征构建的预测模型AUC值为0.81,召回率达到0.93,F1分数为0.82,均优于其他三个模型。结论:针对盆腔肿瘤调强放疗计划,可以采用SHAP值与XGBoost算法结合以选择用于预测的最佳影像组学特征子集来构建γ通过率的预测模型,并能通过SHAP值给出模型输出解释,可能在理解依赖机器学习模型所做的预测方面提供价值。
...不再出现此类内容
编辑人员丨5天前
-
基于磁共振高分辨T2WI影像组学预测直肠癌新辅助治疗后病理完全反应的研究
编辑人员丨5天前
目的:探讨基于磁共振高分辨T2WI影像组学方法对预测直肠癌新辅助治疗后病理完全反应(pCR)的价值。方法:回顾性分析我院2018年1月至2019年3月新辅助治疗前接受磁共振高分辨T2WI成像检查并经病理证实的80例直肠癌患者,在高分辨T2WI图像上手动勾画病灶容积感兴趣区(VOI)后提取影像组学特征,采用最小绝对值收缩算子(LASSO)算法进行降维,筛选对肿瘤pCR有价值的特征,利用Random算法将数据随机分为训练集( n=64)与测试集( n=16)进行机器学习,建立决策树(DT)、逻辑回归(LR)、随机森林(RF)、极限梯度增强树(XGBoost)4种机器学习模型并绘制ROC曲线,分别计算AUC、敏感性、特异性及95% CI,采用DeLong检验比较ROC曲线差异。 结果:80例直肠癌患者pCR 15例,占18.75%;非pCR 65例,占81.25%。共提取1 409个影像组学特征,经LASSO算法降维后筛选出8个最有价值的特征。测试集DT、LR、RF、XGBoost 4种分类器模型的AUC分别为0.870、0.801、0.912、0.945,其中XGBoost分类器模型的AUC最大,与DT、LR、RF分类器模型相比较,差异具有统计学意义( P=0.008; P=0.006; P=0.009);其他3种模型两两比较,差异均无统计学意义( PLR-RF=0.083; PDT-LR=0.113; PDT-RF=0.879)。4种分类器模型敏感性分别为78.57%、64.29%、78.57%、85.71%,特异性分别为95.38%、84.62%、92.31%、98.46%,95% CI分别为0.775~0.935、0.696~0.882、0.827~0.964、0.870~0.984。 结论:基于高分辨T2WI图像的影像组学对直肠癌新辅助治疗后pCR有预测价值,其中XGBoost模型预测效能优于DT、LR、RF,可以用于辅助临床制定个体化治疗决策。
...不再出现此类内容
编辑人员丨5天前
-
伴右向左分流隐源性卒中患者发病风险预测模型研究
编辑人员丨5天前
目的:利用机器学习预测右向左分流(right-to-left shunt,RLS)人群隐源性卒中(cryptogenic stroke,CS)发病风险,为CS的准确和高效预测提供解决方案。方法:回顾分析2018年1月至2023年9月在青岛大学附属医院崂山院区神经内科治疗的经颅多普勒超声发泡试验(c-TCD)阳性的289例RLS人群的临床数据,包括人口统计学信息、疾病史、实验室检查指标、诊断和治疗等。使用机器学习train_test_split()函数将数据集随机分为训练集和测试集,比例为8∶2。采用Logistic回归、决策树、随机森林、极端梯度提升、人工神经网络、梯度提升、极限树和自适应增强等算法构建RLS人群CS风险预测模型,使用受试者工作特征曲线(receiver operating characteristic,ROC)及曲线下面积(area under curve,AUC)、混淆矩阵、精确率、召回率、准确率、F1值、校准曲线、决策曲线等综合评估模型性能。性能最优的模型使用特征重要性和SHAP值进行可解释性分析。使用SPSS 25.0进行 t检验、Mann-Whitney U检验和 χ2检验。采用Delong检验比较两模型间AUC的差异。 结果:289例RLS人群发生CS 166例(57.5%),非CS 123例(42.5%)。统计分析结果显示,CS患者D-二聚体、平均血小板体积、纤维蛋白原等血液生化指标高于非CS患者(均 P<0.01);训练集与测试集各变量均差异无统计学意义(均 P>0.05)。对测试集进行CS风险预测,随机森林模型取得了最高的AUC(0.885)、精确率(0.806)、召回率(0.879)、准确率(0.810)以及F1得分(0.841)。校准曲线显示随机森林模型最接近参考线,决策曲线表明随机森林模型具有更大的净受益。可解释性分析显示高风险因素包括平均血小板体积、D-二聚体、国际标准化比值、体质量指数以及年龄。 结论:基于随机森林的预测工具表现出色,在预测RLS人群CS风险方面准确性较高。
...不再出现此类内容
编辑人员丨5天前
-
应用机器学习构建中国老年人维生素D分类模型
编辑人员丨5天前
目的:应用机器学习构建中国老年人维生素D分类模型。方法:利用2010—2012年中国居民营养与健康状况监测数据,收集研究对象基本信息、身体运动等情况,以3d 24h膳食回顾法和食物频率法收集研究对象的膳食摄入情况,以维生素D正常与不足为结局变量,探索采用随机森林、核支持向量机、极致梯度提升和集成算法等多种机器学习技术构建中国老年人维生素D分类模型的效果。结果:以3 d 24 h膳食回顾法和食物频率法获得的2组膳食调查数据为基础,构建的中国老年人维生素D分类模型准确率分别为0.71和0.62,F1分别为0.82和0.73,受试者工作特征曲线下面积在调节参数及集成学习后提高到0.58和0.57。年龄,性别,蔬菜、水产品和谷物的摄入,每天做家务及运动情况等是影响我国老年人维生素D分类的重要因素。结论:机器学习方法应用于中国老年人维生素D分类模型的构建具有良好的效果,其中随机森林算法和集成学习更适于老年人维生素D分类模型的建构。
...不再出现此类内容
编辑人员丨5天前
-
急性A型主动脉夹层患者术后死亡风险的预测模型
编辑人员丨5天前
目的:采用不同的机器学习算法,构建并筛选预测急性A型主动脉夹层患者术后30天内死亡风险的最佳预测模型。方法:纳入2015年至2022年间行手术治疗的急性A型主动脉夹层患者521例,收集其围手术期资料并进行筛选后保留329例。分别通过 Lasso回归和主成分分析确定两组不同的预测变量后,使用逻辑回归和支持向量机、随机森林、梯度提升、超级学习算法建立预测术后30天内死亡风险的预测模型,并使用 ROC曲线、敏感度值和特异度值等指标对各个模型进行比较。 结果:所有模型的 ROC曲线下面积( AUC)0.791~0.959,使用 Lasso回归确定预测变量,并通过超级学习算法建立的模型预测效果最佳, AUC 0.959。 结论:在对急性A型主动脉夹层术后30内死亡的预测中,超级学习算法优于其他算法。
...不再出现此类内容
编辑人员丨5天前
-
机器学习算法在早期肝细胞癌术后复发预测中的应用价值
编辑人员丨5天前
目的:比较多种机器学习算法在早期肝细胞癌(HCC)术后复发预测中的效能。方法:回顾性分析2009年5月至2019年12月南京医科大学第一附属医院收治的882例接受根治性手术切除的早期HCC患者的临床资料,其中男性701例,女性181例,年龄(57.3±10.5)岁(范围:21~86岁)。将患者按2∶1随机分为训练集(588例)和测试集(294例)。构建的机器学习预测模型包括随机生存森林(RSF)、梯度提升机、弹性网络-Cox回归和Cox回归模型。采用一致性指数(C-index)衡量模型预测的准确性、综合Brier分数量化模型的预测误差、校准曲线反映模型的拟合情况。比较机器学习模型、竞争模型和HCC分期系统的预测效能。所有模型均在独立的测试集内进行验证。结果:训练集内患者中位无复发生存时间为61.7个月,测试集内患者中位无复发生存时间为61.9个月,两组患者无复发生存情况的差异无统计学意义( χ2=0.029, P=0.865)。RSF模型由5个常用临床病理学特征构成:白蛋白-胆红素分级、血清甲胎蛋白、肿瘤数目、肝切除方式和微血管侵犯。在训练集和测试集中,RSF模型的C-index值分别为0.758(95% CI:0.725~0.791)和0.749(95% CI:0.700~0.797),综合Brier分数分别为0.171和0.151。RSF模型对早期HCC复发预测的准确性优于其他3种机器学习模型、竞争模型(ERASL模型)及HCC分期系统(巴塞罗那分期、中国肝癌的分期方案、TNM分期),差异均有统计学意义( P值均<0.01)。校准曲线提示,RSF模型的预测概率与实际观察值具有较好的一致性。RSF模型可将早期HCC患者的复发风险分为低危、中危和高危组,在训练集和测试集内三组患者无复发生存情况的差异有统计学意义( P<0.01)。RSF模型对早期HCC术后复发风险的分层明显优于TNM分期。 结论:本研究构建的RSF模型集合了5个常用临床病理学特征,可较为准确地预测复发风险。
...不再出现此类内容
编辑人员丨5天前
-
基于机器学习的阻塞性冠心病验前概率模型:来自C-Strat研究
编辑人员丨5天前
目的:利用机器学习算法开发中国人群的阻塞性冠心病验前概率模型。方法:纳入冠状动脉斑块早期识别与风险预警的临床注册研究(Chinese regiStry in early deTection and Risk strAtificaTion of coronary plaques,C-Strat)中疑似为冠心病而接受冠状动脉CT血管造影(CCTA)检查的29 455例就诊者,采集人口统计学和临床信息作为预测变量。数据按7∶3的比例随机拆分为训练集和测试集,以CCTA诊断冠状动脉狭窄大于50%作为阳性结局,在训练集中运用极端梯度增强机(eXtreme Gradient Boosting,XGBoost)算法,使用十折交叉验证和贝叶斯优化进行参数调优,得到机器学习模型CARDIACS(pretest probability model from Chinese registry in eARly Detection and rIsk stratificAtion of Coronary plaques Study);使用logistic回归得到模型LOGISTIC。在测试集中验证比较CARDIACS、LOGISTIC和指南推荐的模型UDFM(Updated Diamond-Forrester Model)、DFCASS(Diamond-Forrester and CASS)。结果:29 455例就诊者年龄(57.0±9.7)岁,女性占44.8%,阻塞性冠心病的患病率为19.1%(5 622/29 455)。在CARDIACS模型中,就诊原因、年龄和体重指数是最重要的预测变量。在独立的测试集中,CARDIACS的曲线下面积(AUC)为0.72(95% CI 0.70~0.73),优于LOGISTIC(AUC 0.69,95% CI 0.68~0.71, P=0.015)、UDFM(AUC 0.64,95% CI 0.62~0.65, P<0.001)和DFCASS(AUC 0.66,95% CI 0.64~0.67, P<0.001)。 结论:基于中国人群开发的全新的验前概率模型CARDIACS预测中国人群阻塞性冠心病的能力明显优于传统的模型,有望辅助稳定性胸痛临床决策。
...不再出现此类内容
编辑人员丨5天前