-
基于可解释性机器学习模型的轻型缺血性卒中复发预测研究
编辑人员丨1周前
目的 利用可解释的机器学习模型,探讨轻型缺血性卒中(minor ischemic stroke,MIS)2年内复发相关危险因素.方法 回顾性收集2020年7-12月山西省心血管病医院神经内科MIS患者一般资料、实验室结果、影像学等资料,单因素分析进行复发危险因素变量筛选,合成少数过采样技术-标称连续处理数据不平衡,数据集按8∶2的比例分为训练集与测试集,网格搜索10折交叉验证构建轻量梯度提升机(light gradient boosting machine,LightGBM)、支持向量机(support vector machine,SVM)模型,并与逻辑回归(logistic regression,LR)模型进行比较,基于ROC的AUC、校准曲线分别评价模型的区分度与校准度,性能最好的模型通过Shapley加性解释(Shapley additive explanation,SHAP)模型对预测结果进行解读.结果 本研究共纳入520例MIS患者,2年内复发93例(17.9%),测试集中LightGBM、SVM、LR预测患者2年内复发的AUC分别为0.935(95%CI 0.896~0.973)、0.833(95%CI 0.770~0.896)、0.764(95%CI 0.691~0.835),准确度分别为0.890、0.773、0.693,布里尔分数分别为0.105、0.167、0.200.结果 显示LightGBM模型性能最优,基于SHAP的LightGBM可解释模型重要性前5的是舒张压、年龄、糖尿病、LDL-C、吸烟.结论 本研究建立的LightGBM模型预测效果良好,可为MIS患者2年内复发的预测提供借鉴.通过SHAP可解释性帮助临床医师更好地理解预测模型结果背后的原因,对MIS患者做出更个性化与合理化的临床决策.
...不再出现此类内容
编辑人员丨1周前
-
基于静脉期增强CT影像组学的机器学习模型术前预测局部进展期胃癌脉管侵犯
编辑人员丨1周前
目的:评估基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌脉管侵犯(VI)的价值。方法:回顾性分析2011年7月至2020年12月郑州大学第一附属医院经病理证实的296例局部进展期胃癌患者,VI阳性213例、阴性83例,采用分层抽样方法按7∶3的比例将数据分为训练集(207例)和测试集(89例)。记录患者临床特征,采用多因素logistic回归筛选胃癌VI的独立危险因素。利用Pyradiomics软件提取肿瘤静脉期CT影像组学特征,采用最小绝对收缩和选择算法(LASSO)进行特征筛选,得到最优特征子集,建立影像组学标签。使用极端梯度提升(XGBoost)、逻辑回归(logistic)、朴素贝叶斯(GNB)和支持向量机(SVM)4种机器学习算法,对影像组学标签和筛选出的临床独立危险因素构建预测模型。采用受试者操作特征曲线评估模型预测胃癌VI的效能。结果:分化程度(OR=13.651,95%CI 7.265~25.650, P=0.003)、Lauren分型(OR=1.349,95%CI 1.011~1.799, P=0.042)和CA199(OR=1.796,95%CI 1.406~2.186, P=0.044)是预测局部进展期胃癌VI的独立危险因素。基于静脉期增强CT图像提取了864个影像组学特征,经LASSO筛选出18个最优特征构建组学标签。训练集中,XGBoost、logistic、GNB和SVM模型预测胃癌VI的曲线下面积(AUC)分别为0.914(95%CI 0.875~0.953)、0.897(95%CI 0.853~0.940)、0.880(95%CI 0.832~0.928)和0.814(95%CI 0.755~0.873),测试集中分别是0.870(95%CI 0.769~0.971)、0.877(95%CI 0.788~0.964)、0.859(95%CI 0.755~0.961)和0.773(95%CI 0.647~0.898)。logistic模型在测试集中AUC最大且稳定性高。 结论:基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌VI均具有较高的效能,其中logistic模型的诊断效能最佳。
...不再出现此类内容
编辑人员丨1周前
-
PET影像组学特征多参数模型对≥60岁弥漫性大B细胞淋巴瘤患者生存预后的预测价值
编辑人员丨1周前
目的:探讨基于机器学习的 18F-FDG PET影像组学特征对≥60岁弥漫性大B细胞淋巴瘤(DLBCL)患者的预后评估价值。 方法:回顾性分析2011年3月至2019年11月166例未经治疗的DLBCL患者(年龄≥60岁)的 18F-FDG PET/CT资料,其中男88例、女78例,年龄60~93岁;训练组115例,验证组51例。对患者PET图像进行病灶勾画及影像组学特征提取,运用3种机器学习方法[最小绝对收缩和选择算子(LASSO)、随机森林(RF)和极端梯度提升(Xgboost)]筛选特征,采用支持向量机(SVM)对特征进行分类并生成影像组学标签(RS),对患者总生存(OS)进行预测。根据Cox比例风险回归模型构建多参数模型,并通过一致性指数(C-index)进行评估。 结果:共提取1 421种影像组学特征,筛选出10个预测效能强的特征并生成RS。单因素Cox回归分析示,RS[风险比( HR)=5.685, 95% CI: 2.955~10.939; P<0.001]是OS的危险因素。构建出包含RS、代谢特征及临床风险因素的多参数模型,其较临床模型、基于PET模型及美国国家综合癌症网络国际预后指数(NCCN-IPI)在预测OS上具有更高的效能(训练组C-index:0.752、0.737、0.739、0.688;验证组C-index:0.845、0.798、0.844、0.775)。 结论:基于机器学习 18F-FDG PET影像组学特征的RS是≥60岁DLBCL患者生存预后的预测因素。构建的包含影像组学特征的多参数模型能较好地预测患者预后。
...不再出现此类内容
编辑人员丨1周前
-
基于SHAP值特征选择的γ通过率分类预测及解释
编辑人员丨1周前
目的:探索SHAP值结合极端梯度提升树(XGBoost)算法的特征选择技术来构建调强放疗γ通过率预测模型的可行性和有效性,并给出相应的模型解释。方法:回顾性分析2020年11月至2021年11月在湖南省肿瘤医院接受盆腔固定野调强放射治疗的196例肿瘤患者采用基于模体测量方式的调强放疗计划的剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的影像组学特征并使用SHAP值结合XGBoost算法进行特征筛选后构建预测模型。分别选取特征数量为50、80、110、140个,构建四种机器学习分类模型,计算曲线下面积(AUC)值、召回率及F1分数评估预测模型的分类性能。结果:基于SHAP值特征选择的110个特征构建的预测模型AUC值为0.81,召回率达到0.93,F1分数为0.82,均优于其他三个模型。结论:针对盆腔肿瘤调强放疗计划,可以采用SHAP值与XGBoost算法结合以选择用于预测的最佳影像组学特征子集来构建γ通过率的预测模型,并能通过SHAP值给出模型输出解释,可能在理解依赖机器学习模型所做的预测方面提供价值。
...不再出现此类内容
编辑人员丨1周前
-
可解释的机器学习模型预测缺血性脑卒中患者预后研究
编辑人员丨1周前
目的:探讨可解释的机器学习模型预测急性缺血性脑卒中预后的应用价值。方法:选取广东医科大学附属湛江中心医院神经内科自2020年3月至2023年10月实施静脉溶栓治疗的296例急性缺血性脑卒中患者为研究对象,随访3个月后使用改良Rankin量表评估预后(0~2分定义为预后良好,3~6分定义为预后不良)。回顾性收集患者的临床资料,并采用多因素Logistic回归分析筛选出患者预后的独立影响因素。以3∶2比例将患者随机分为训练集( n=178)和测试集( n=118),以预后独立影响因素为特征变量训练10种机器学习模型(逻辑回归、随机森林、支持向量机、朴素贝叶斯、线性判别分析、混合判别分析、灵活判别分析、梯度增强机、极端梯度提升和分类梯度提升),分别使用校准曲线、精确-召回曲线、精确-召回增益曲线及受试者工作特征曲线评估这10种机器学习模型的预测性能,使用Shapley加法解释(SHAP)对机器学习模型附加解释和可视化(包含全局解释和局部解释)。 结果:296例患者中预后不良72例。年龄( OR=1.039,95% CI:1.008~1.072, P=0.015)、美国国立卫生研究院卒中量表评分( OR=1.213,95% CI:1.000~1.337, P<0.001)、格拉斯哥昏迷量表评分( OR=0.470,95% CI:0.289~0.765, P=0.002,)、卒中预测工具-Ⅱ评分( OR=1.257,95% CI:1.043~1.516, P=0.016)、C反应蛋白水平( OR=1.709,95% CI:1.398~2.087, P<0.001)和血小板计数( OR=0.988,95% CI:0.978~0.998, P=0.016)是患者预后的独立影响因素。在10种机器学习模型中,极端梯度提升模型预测患者预后的性能最高(校准曲线评估示一致性指数为0.896,精确-召回曲线评估示曲线下面积为0.791,精确-召回增益曲线示曲线下面积为0.363,受试者工作特征曲线示曲线下面积为0.856)。全局解释中SHAP直观图显示特征变量的重要性排序依次为C反应蛋白、美国国立卫生研究院卒中量表评分、血小板计数、格拉斯哥昏迷量表评分、卒中预测工具-Ⅱ评分和年龄;SHAP散点图可视化了6个特征变量的贡献方向,呈"两端分布"现象;SHAP依赖图显示了6个特征变量的观测值与SHAP值间的依赖关系,其中C反应蛋白趋势最为显著。SHAP力图为单个样本提供了局部解释,使得极端梯度提升模型更加透明和可解释性。 结论:基于年龄、美国国立卫生研究院卒中量表评分、格拉斯哥昏迷量表评分、卒中预测工具-Ⅱ评分、C反应蛋白水平和血小板计数为特征变量的极端梯度提升模型预测急性缺血性脑卒中患者预后的性能最优,在此基础上结合SHAP进行模型解释和可视化,有助于理解各特征变量对预测结果的贡献大小及方向。
...不再出现此类内容
编辑人员丨1周前
-
伴右向左分流隐源性卒中患者发病风险预测模型研究
编辑人员丨1周前
目的:利用机器学习预测右向左分流(right-to-left shunt,RLS)人群隐源性卒中(cryptogenic stroke,CS)发病风险,为CS的准确和高效预测提供解决方案。方法:回顾分析2018年1月至2023年9月在青岛大学附属医院崂山院区神经内科治疗的经颅多普勒超声发泡试验(c-TCD)阳性的289例RLS人群的临床数据,包括人口统计学信息、疾病史、实验室检查指标、诊断和治疗等。使用机器学习train_test_split()函数将数据集随机分为训练集和测试集,比例为8∶2。采用Logistic回归、决策树、随机森林、极端梯度提升、人工神经网络、梯度提升、极限树和自适应增强等算法构建RLS人群CS风险预测模型,使用受试者工作特征曲线(receiver operating characteristic,ROC)及曲线下面积(area under curve,AUC)、混淆矩阵、精确率、召回率、准确率、F1值、校准曲线、决策曲线等综合评估模型性能。性能最优的模型使用特征重要性和SHAP值进行可解释性分析。使用SPSS 25.0进行 t检验、Mann-Whitney U检验和 χ2检验。采用Delong检验比较两模型间AUC的差异。 结果:289例RLS人群发生CS 166例(57.5%),非CS 123例(42.5%)。统计分析结果显示,CS患者D-二聚体、平均血小板体积、纤维蛋白原等血液生化指标高于非CS患者(均 P<0.01);训练集与测试集各变量均差异无统计学意义(均 P>0.05)。对测试集进行CS风险预测,随机森林模型取得了最高的AUC(0.885)、精确率(0.806)、召回率(0.879)、准确率(0.810)以及F1得分(0.841)。校准曲线显示随机森林模型最接近参考线,决策曲线表明随机森林模型具有更大的净受益。可解释性分析显示高风险因素包括平均血小板体积、D-二聚体、国际标准化比值、体质量指数以及年龄。 结论:基于随机森林的预测工具表现出色,在预测RLS人群CS风险方面准确性较高。
...不再出现此类内容
编辑人员丨1周前
-
应用机器学习构建中国老年人维生素D分类模型
编辑人员丨1周前
目的:应用机器学习构建中国老年人维生素D分类模型。方法:利用2010—2012年中国居民营养与健康状况监测数据,收集研究对象基本信息、身体运动等情况,以3d 24h膳食回顾法和食物频率法收集研究对象的膳食摄入情况,以维生素D正常与不足为结局变量,探索采用随机森林、核支持向量机、极致梯度提升和集成算法等多种机器学习技术构建中国老年人维生素D分类模型的效果。结果:以3 d 24 h膳食回顾法和食物频率法获得的2组膳食调查数据为基础,构建的中国老年人维生素D分类模型准确率分别为0.71和0.62,F1分别为0.82和0.73,受试者工作特征曲线下面积在调节参数及集成学习后提高到0.58和0.57。年龄,性别,蔬菜、水产品和谷物的摄入,每天做家务及运动情况等是影响我国老年人维生素D分类的重要因素。结论:机器学习方法应用于中国老年人维生素D分类模型的构建具有良好的效果,其中随机森林算法和集成学习更适于老年人维生素D分类模型的建构。
...不再出现此类内容
编辑人员丨1周前
-
急性A型主动脉夹层患者术后死亡风险的预测模型
编辑人员丨1周前
目的:采用不同的机器学习算法,构建并筛选预测急性A型主动脉夹层患者术后30天内死亡风险的最佳预测模型。方法:纳入2015年至2022年间行手术治疗的急性A型主动脉夹层患者521例,收集其围手术期资料并进行筛选后保留329例。分别通过 Lasso回归和主成分分析确定两组不同的预测变量后,使用逻辑回归和支持向量机、随机森林、梯度提升、超级学习算法建立预测术后30天内死亡风险的预测模型,并使用 ROC曲线、敏感度值和特异度值等指标对各个模型进行比较。 结果:所有模型的 ROC曲线下面积( AUC)0.791~0.959,使用 Lasso回归确定预测变量,并通过超级学习算法建立的模型预测效果最佳, AUC 0.959。 结论:在对急性A型主动脉夹层术后30内死亡的预测中,超级学习算法优于其他算法。
...不再出现此类内容
编辑人员丨1周前
-
机器学习算法在早期肝细胞癌术后复发预测中的应用价值
编辑人员丨1周前
目的:比较多种机器学习算法在早期肝细胞癌(HCC)术后复发预测中的效能。方法:回顾性分析2009年5月至2019年12月南京医科大学第一附属医院收治的882例接受根治性手术切除的早期HCC患者的临床资料,其中男性701例,女性181例,年龄(57.3±10.5)岁(范围:21~86岁)。将患者按2∶1随机分为训练集(588例)和测试集(294例)。构建的机器学习预测模型包括随机生存森林(RSF)、梯度提升机、弹性网络-Cox回归和Cox回归模型。采用一致性指数(C-index)衡量模型预测的准确性、综合Brier分数量化模型的预测误差、校准曲线反映模型的拟合情况。比较机器学习模型、竞争模型和HCC分期系统的预测效能。所有模型均在独立的测试集内进行验证。结果:训练集内患者中位无复发生存时间为61.7个月,测试集内患者中位无复发生存时间为61.9个月,两组患者无复发生存情况的差异无统计学意义( χ2=0.029, P=0.865)。RSF模型由5个常用临床病理学特征构成:白蛋白-胆红素分级、血清甲胎蛋白、肿瘤数目、肝切除方式和微血管侵犯。在训练集和测试集中,RSF模型的C-index值分别为0.758(95% CI:0.725~0.791)和0.749(95% CI:0.700~0.797),综合Brier分数分别为0.171和0.151。RSF模型对早期HCC复发预测的准确性优于其他3种机器学习模型、竞争模型(ERASL模型)及HCC分期系统(巴塞罗那分期、中国肝癌的分期方案、TNM分期),差异均有统计学意义( P值均<0.01)。校准曲线提示,RSF模型的预测概率与实际观察值具有较好的一致性。RSF模型可将早期HCC患者的复发风险分为低危、中危和高危组,在训练集和测试集内三组患者无复发生存情况的差异有统计学意义( P<0.01)。RSF模型对早期HCC术后复发风险的分层明显优于TNM分期。 结论:本研究构建的RSF模型集合了5个常用临床病理学特征,可较为准确地预测复发风险。
...不再出现此类内容
编辑人员丨1周前
-
基于监督机器学习算法构建脓毒性休克患者死亡风险的预测模型
编辑人员丨1周前
目的:基于不同监督机器学习算法,构建并验证适用于脓毒性休克患者28 d死亡风险的最佳预测模型。方法:从美国重症监护医学信息数据库Ⅳ v2.0(MIMIC-Ⅳ v2.0)中筛选出符合脓毒症3.0的脓毒性休克患者,随机抽取病例,其中70%作为训练集,30%作为验证集。从人口学特征及基础生命体征、入重症监护病房(ICU)24 h内血清学指标及可能影响指标的合并症、功能评分及高级生命支持3个层面提取相关预测变量。比较基于决策树分类回归树(CART)、随机森林(RF)、支持向量机(SVM)、线性回归(LR)及超级学习器〔SL,综合了CART、RF和极端梯度提升(XGBoost)〕5种主流机器学习算法构建的模型对脓毒性休克患者28 d死亡的预测效能,筛选最佳算法模型。利用LASSO回归、RF和XGBoost算法,通过取交集确定最佳预测变量,构建预测模型。采用受试者工作特征曲线(ROC曲线)验证模型的预测效能;采用校准曲线评估模型的准确性;采用决策曲线分析(DCA)验证模型的实用性。结果:最终共纳入3?295例脓毒性休克患者,28 d存活2?164例,死亡1?131例,病死率为34.32%;其中,训练集2?307例(28 d死亡792例,病死率为34.33%),验证集988例(28 d死亡339例,病死率为34.31%)。基于训练集数据分别建立5种机器学习模型;在纳入3个层面的变量后,RF、SVM、LR 3种机器学习模型在验证集预测脓毒性休克患者28 d死亡的ROC曲线下面积(AUC)依次为0.823〔95%可信区间(95% CI)为0.795~0.849〕、0.823(95% CI为0.796~0.849)、0.810(95% CI为0.782~0.838),高于CART算法模型(AUC=0.750,95% CI为0.717~0.782)和SL算法模型(AUC=0.756,95% CI为0.724~0.789),故将以上3种算法模型确定为最佳算法模型。综合3个层面变量后,通过LASSO回归、RF和XGBoost算法筛选并取交集,得出16个最佳预测变量,依次为入ICU 24 h内pH最大值、白蛋白(Alb)最大值、体温最大值、血乳酸(Lac)最小值、Lac最大值、血肌酐(SCr)最大值、Ca 2+最大值、血红蛋白(Hb)最小值、白细胞计数(WBC)最小值、年龄、简化急性生理学评分Ⅲ(SAPSⅢ)、WBC最大值、急性生理学评分Ⅲ(APSⅢ)、Na +最小值、体质量指数(BMI)及活化部分凝血活酶时间(APTT)最小值。ROC曲线分析显示,以上述16个最佳预测变量构建的Logistic回归模型为最佳预测模型,在验证集中的AUC为0.806(95% CI为0.778~0.835);校准曲线及DCA曲线显示,该模型的精准度较高,且净收益最高可达0.3,其预测效能明显优于传统以单一功能评分〔APSⅢ评分、SAPSⅢ评分、序贯器官衰竭评分(SOFA)〕建立的模型〔AUC(95% CI)分别为0.746(0.715~0.778)、0.765(0.734~0.796)、0.625(0.589~0.661)〕。 结论:以pH值、Alb、体温、Lac、SCr、Ca 2+、Hb、WBC、SAPSⅢ评分、APSⅢ评分、Na +、BMI、APTT等16个最佳变量构建的Logistic回归模型为脓毒性休克患者28 d死亡风险的最佳预测模型,其效能稳定,区分度及精准度均较高。
...不再出现此类内容
编辑人员丨1周前
