-
基于监督机器学习算法构建脓毒性休克患者死亡风险的预测模型
编辑人员丨4天前
目的:基于不同监督机器学习算法,构建并验证适用于脓毒性休克患者28 d死亡风险的最佳预测模型。方法:从美国重症监护医学信息数据库Ⅳ v2.0(MIMIC-Ⅳ v2.0)中筛选出符合脓毒症3.0的脓毒性休克患者,随机抽取病例,其中70%作为训练集,30%作为验证集。从人口学特征及基础生命体征、入重症监护病房(ICU)24 h内血清学指标及可能影响指标的合并症、功能评分及高级生命支持3个层面提取相关预测变量。比较基于决策树分类回归树(CART)、随机森林(RF)、支持向量机(SVM)、线性回归(LR)及超级学习器〔SL,综合了CART、RF和极端梯度提升(XGBoost)〕5种主流机器学习算法构建的模型对脓毒性休克患者28 d死亡的预测效能,筛选最佳算法模型。利用LASSO回归、RF和XGBoost算法,通过取交集确定最佳预测变量,构建预测模型。采用受试者工作特征曲线(ROC曲线)验证模型的预测效能;采用校准曲线评估模型的准确性;采用决策曲线分析(DCA)验证模型的实用性。结果:最终共纳入3?295例脓毒性休克患者,28 d存活2?164例,死亡1?131例,病死率为34.32%;其中,训练集2?307例(28 d死亡792例,病死率为34.33%),验证集988例(28 d死亡339例,病死率为34.31%)。基于训练集数据分别建立5种机器学习模型;在纳入3个层面的变量后,RF、SVM、LR 3种机器学习模型在验证集预测脓毒性休克患者28 d死亡的ROC曲线下面积(AUC)依次为0.823〔95%可信区间(95% CI)为0.795~0.849〕、0.823(95% CI为0.796~0.849)、0.810(95% CI为0.782~0.838),高于CART算法模型(AUC=0.750,95% CI为0.717~0.782)和SL算法模型(AUC=0.756,95% CI为0.724~0.789),故将以上3种算法模型确定为最佳算法模型。综合3个层面变量后,通过LASSO回归、RF和XGBoost算法筛选并取交集,得出16个最佳预测变量,依次为入ICU 24 h内pH最大值、白蛋白(Alb)最大值、体温最大值、血乳酸(Lac)最小值、Lac最大值、血肌酐(SCr)最大值、Ca 2+最大值、血红蛋白(Hb)最小值、白细胞计数(WBC)最小值、年龄、简化急性生理学评分Ⅲ(SAPSⅢ)、WBC最大值、急性生理学评分Ⅲ(APSⅢ)、Na +最小值、体质量指数(BMI)及活化部分凝血活酶时间(APTT)最小值。ROC曲线分析显示,以上述16个最佳预测变量构建的Logistic回归模型为最佳预测模型,在验证集中的AUC为0.806(95% CI为0.778~0.835);校准曲线及DCA曲线显示,该模型的精准度较高,且净收益最高可达0.3,其预测效能明显优于传统以单一功能评分〔APSⅢ评分、SAPSⅢ评分、序贯器官衰竭评分(SOFA)〕建立的模型〔AUC(95% CI)分别为0.746(0.715~0.778)、0.765(0.734~0.796)、0.625(0.589~0.661)〕。 结论:以pH值、Alb、体温、Lac、SCr、Ca 2+、Hb、WBC、SAPSⅢ评分、APSⅢ评分、Na +、BMI、APTT等16个最佳变量构建的Logistic回归模型为脓毒性休克患者28 d死亡风险的最佳预测模型,其效能稳定,区分度及精准度均较高。
...不再出现此类内容
编辑人员丨4天前
-
18F-FDG PET/CT影像组学融合特征结合XGBoost模型对乳腺癌HER2表达状态的预测价值
编辑人员丨4天前
目的:评估基于 18F-FDG PET/CT图像的影像组学融合特征结合极端梯度提升(XGBoost)机器学习模型在乳腺癌人表皮生长因子受体2(HER2)表达状态预测中的价值。 方法:回顾性分析2012年1月至2019年12月于天津医科大学肿瘤医院行 18F-FDG PET/CT检查的210例原发性乳腺癌患者[均为女性;年龄52(46,60)岁;HER2阳性95例,HER2阴性115例],采用Python 3.7.1软件从HER2阳性组及HER2阴性组分别随机抽取70%作为训练集[147例,其中HER2阳性67例,年龄52(46,60)岁;HER2阴性80例,年龄55(45,62)岁],30%作为测试集[63例,其中HER2阳性28例,年龄54(43,65)岁;HER2阴性35例,年龄52(45,61)岁]。在CT和PET图像上进行肿瘤分割后,分别提取CT、PET影像组学特征,经后处理获得PET/CT融合特征(包括PET/CT拼接特征和PET/CT平均特征)。建立支持向量机(SVM)模型和XGBoost机器学习模型,输入经特征筛选后保留的特征,用于预测乳腺癌原发灶中HER2的表达状态,并用ROC曲线对模型的预测效能进行评估。采用Delong检验分析不同模型及组学特征的预测效能,并绘制预测效能最高的机器学习模型的校准曲线。 结果:与SVM模型比较,XGBoost模型在输入CT特征、PET特征、PET/CT拼接特征和PET/CT平均特征时均有更佳的预测效能( z值:2.26~3.54, P值:0.016~0.040)。在XGBoost机器学习模型中,PET/CT平均特征预测乳腺癌HER2表达状态的ROC AUC为0.83(95% CI:0.73~0.93),优于CT特征[0.75(95% CI:0.63~0.88); z=3.57, P=0.027]、PET特征[0.73(95% CI:0.60~0.86); z=2.64, P=0.034]及PET/CT拼接特征[0.74(95% CI:0.60~0.87); z=2.49, P=0.037]。 结论:基于PET/CT影像组学融合特征建立的XGBoost机器学习模型有望用于乳腺癌患者HER2表达状态的预测。
...不再出现此类内容
编辑人员丨4天前
-
可解释的机器学习模型预测缺血性脑卒中患者预后研究
编辑人员丨4天前
目的:探讨可解释的机器学习模型预测急性缺血性脑卒中预后的应用价值。方法:选取广东医科大学附属湛江中心医院神经内科自2020年3月至2023年10月实施静脉溶栓治疗的296例急性缺血性脑卒中患者为研究对象,随访3个月后使用改良Rankin量表评估预后(0~2分定义为预后良好,3~6分定义为预后不良)。回顾性收集患者的临床资料,并采用多因素Logistic回归分析筛选出患者预后的独立影响因素。以3∶2比例将患者随机分为训练集( n=178)和测试集( n=118),以预后独立影响因素为特征变量训练10种机器学习模型(逻辑回归、随机森林、支持向量机、朴素贝叶斯、线性判别分析、混合判别分析、灵活判别分析、梯度增强机、极端梯度提升和分类梯度提升),分别使用校准曲线、精确-召回曲线、精确-召回增益曲线及受试者工作特征曲线评估这10种机器学习模型的预测性能,使用Shapley加法解释(SHAP)对机器学习模型附加解释和可视化(包含全局解释和局部解释)。 结果:296例患者中预后不良72例。年龄( OR=1.039,95% CI:1.008~1.072, P=0.015)、美国国立卫生研究院卒中量表评分( OR=1.213,95% CI:1.000~1.337, P<0.001)、格拉斯哥昏迷量表评分( OR=0.470,95% CI:0.289~0.765, P=0.002,)、卒中预测工具-Ⅱ评分( OR=1.257,95% CI:1.043~1.516, P=0.016)、C反应蛋白水平( OR=1.709,95% CI:1.398~2.087, P<0.001)和血小板计数( OR=0.988,95% CI:0.978~0.998, P=0.016)是患者预后的独立影响因素。在10种机器学习模型中,极端梯度提升模型预测患者预后的性能最高(校准曲线评估示一致性指数为0.896,精确-召回曲线评估示曲线下面积为0.791,精确-召回增益曲线示曲线下面积为0.363,受试者工作特征曲线示曲线下面积为0.856)。全局解释中SHAP直观图显示特征变量的重要性排序依次为C反应蛋白、美国国立卫生研究院卒中量表评分、血小板计数、格拉斯哥昏迷量表评分、卒中预测工具-Ⅱ评分和年龄;SHAP散点图可视化了6个特征变量的贡献方向,呈"两端分布"现象;SHAP依赖图显示了6个特征变量的观测值与SHAP值间的依赖关系,其中C反应蛋白趋势最为显著。SHAP力图为单个样本提供了局部解释,使得极端梯度提升模型更加透明和可解释性。 结论:基于年龄、美国国立卫生研究院卒中量表评分、格拉斯哥昏迷量表评分、卒中预测工具-Ⅱ评分、C反应蛋白水平和血小板计数为特征变量的极端梯度提升模型预测急性缺血性脑卒中患者预后的性能最优,在此基础上结合SHAP进行模型解释和可视化,有助于理解各特征变量对预测结果的贡献大小及方向。
...不再出现此类内容
编辑人员丨4天前
-
机器学习在预测重症急性胰腺炎发生急性呼吸窘迫综合征中的作用
编辑人员丨4天前
回顾性分析214例SAP患者的资料,构建5种SAP并发急性呼吸窘迫综合征(ARDS)的机器学习预测模型,并筛选出最优模型。结果显示,5种机器学习模型中,极端梯度提升(XGBoost)为最优模型。XGBoost在测试集中的AUC值为0.851(95% CI 0.739~0.963),灵敏度为0.840,特异度为0.793,阳性预测值为0.842,阴性预测值为0.743。最重要的4个预测变量为呼吸频率、血清淀粉酶、年龄和总蛋白。表明机器学习模型能够很好地预测SAP相关ARDS的发生,为临床早期识别高危患者提供了思路。
...不再出现此类内容
编辑人员丨4天前
-
基于SHAP值特征选择的γ通过率分类预测及解释
编辑人员丨4天前
目的:探索SHAP值结合极端梯度提升树(XGBoost)算法的特征选择技术来构建调强放疗γ通过率预测模型的可行性和有效性,并给出相应的模型解释。方法:回顾性分析2020年11月至2021年11月在湖南省肿瘤医院接受盆腔固定野调强放射治疗的196例肿瘤患者采用基于模体测量方式的调强放疗计划的剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的影像组学特征并使用SHAP值结合XGBoost算法进行特征筛选后构建预测模型。分别选取特征数量为50、80、110、140个,构建四种机器学习分类模型,计算曲线下面积(AUC)值、召回率及F1分数评估预测模型的分类性能。结果:基于SHAP值特征选择的110个特征构建的预测模型AUC值为0.81,召回率达到0.93,F1分数为0.82,均优于其他三个模型。结论:针对盆腔肿瘤调强放疗计划,可以采用SHAP值与XGBoost算法结合以选择用于预测的最佳影像组学特征子集来构建γ通过率的预测模型,并能通过SHAP值给出模型输出解释,可能在理解依赖机器学习模型所做的预测方面提供价值。
...不再出现此类内容
编辑人员丨4天前
-
伴右向左分流隐源性卒中患者发病风险预测模型研究
编辑人员丨4天前
目的:利用机器学习预测右向左分流(right-to-left shunt,RLS)人群隐源性卒中(cryptogenic stroke,CS)发病风险,为CS的准确和高效预测提供解决方案。方法:回顾分析2018年1月至2023年9月在青岛大学附属医院崂山院区神经内科治疗的经颅多普勒超声发泡试验(c-TCD)阳性的289例RLS人群的临床数据,包括人口统计学信息、疾病史、实验室检查指标、诊断和治疗等。使用机器学习train_test_split()函数将数据集随机分为训练集和测试集,比例为8∶2。采用Logistic回归、决策树、随机森林、极端梯度提升、人工神经网络、梯度提升、极限树和自适应增强等算法构建RLS人群CS风险预测模型,使用受试者工作特征曲线(receiver operating characteristic,ROC)及曲线下面积(area under curve,AUC)、混淆矩阵、精确率、召回率、准确率、F1值、校准曲线、决策曲线等综合评估模型性能。性能最优的模型使用特征重要性和SHAP值进行可解释性分析。使用SPSS 25.0进行 t检验、Mann-Whitney U检验和 χ2检验。采用Delong检验比较两模型间AUC的差异。 结果:289例RLS人群发生CS 166例(57.5%),非CS 123例(42.5%)。统计分析结果显示,CS患者D-二聚体、平均血小板体积、纤维蛋白原等血液生化指标高于非CS患者(均 P<0.01);训练集与测试集各变量均差异无统计学意义(均 P>0.05)。对测试集进行CS风险预测,随机森林模型取得了最高的AUC(0.885)、精确率(0.806)、召回率(0.879)、准确率(0.810)以及F1得分(0.841)。校准曲线显示随机森林模型最接近参考线,决策曲线表明随机森林模型具有更大的净受益。可解释性分析显示高风险因素包括平均血小板体积、D-二聚体、国际标准化比值、体质量指数以及年龄。 结论:基于随机森林的预测工具表现出色,在预测RLS人群CS风险方面准确性较高。
...不再出现此类内容
编辑人员丨4天前
-
基于机器学习建立脓毒症心肾综合征患者早期死亡风险预测模型
编辑人员丨4天前
目的:探讨机器学习算法构建脓毒症心肾综合征患者早期死亡风险预测模型的方法,为临床早期识别高危患者及精准治疗提供依据。方法:入选同济大学附属同济医院2015年1月1日至2019年5月31日期间入院的脓毒症心肾综合征患者为研究对象,收集患者确诊时的临床表现、实验室检查及治疗情况等资料。研究终点事件定义为患者确诊后30 d内死亡。运用Python软件构建不同机器学习算法模型,采用受试者工作特征曲线下面积( AUC)评估各模型的预测效能。运用构建的最优模型筛选疾病相关风险因素,构建可视化决策树模型和半朴素贝叶斯(sNB)模型。 结果:340例患者入选本研究,其中114例(33.5%)患者确诊后30 d内死亡。支持向量机(SVM )、随机森林(RF)、梯度提升树(GBDT) 、极端梯度提升(XGBoost)和轻量梯度提升(LGBM)5种模型的 AUC值分别为0.652、0.868、0.870、0.754和0.852,其中GBDT模型预测患者发生终点事件的 AUC值最优。依据GBDT模型特征重要度评分筛选出前10项患者预后的影响因素,包括序贯器官衰竭评估(SOFA)总评分、神经系统SOFA评分、血管活性药物应用史、高敏肌钙蛋白(cTNI)、年龄、肌红蛋白(MYO)、循环系统SOFA评分、慢性肾脏病史、心率和基线血肌酐值等参数,建立可视化决策树模型,模型共4层,15个节点,8个终端节点。依据SOFA总评分、MYO变化率、基线血肌酐值和年龄等4项影响因素建立决策树流程,模型预测患者发生终点事件的 AUC值为0.690。sNB模型提示总SOFA总评分与神经系统SOFA评分、SOFA总评分与血管活性药物、cTNI与基线血肌酐值间的相互作用影响患者的短期预后。 结论:基于机器学习建立的脓毒症心肾综合征患者早期死亡风险预测模型结果提示,高SOFA评分仍然是预测脓毒症心肾综合征患者预后不良的首要危险因素。本研究建立的可视化决策树模型和sNB模型可在疾病早期针对高危患者进行临床判断,为脓毒症患者的精准治疗提供预测依据。
...不再出现此类内容
编辑人员丨4天前
-
基于静脉期增强CT影像组学的机器学习模型术前预测局部进展期胃癌脉管侵犯
编辑人员丨4天前
目的:评估基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌脉管侵犯(VI)的价值。方法:回顾性分析2011年7月至2020年12月郑州大学第一附属医院经病理证实的296例局部进展期胃癌患者,VI阳性213例、阴性83例,采用分层抽样方法按7∶3的比例将数据分为训练集(207例)和测试集(89例)。记录患者临床特征,采用多因素logistic回归筛选胃癌VI的独立危险因素。利用Pyradiomics软件提取肿瘤静脉期CT影像组学特征,采用最小绝对收缩和选择算法(LASSO)进行特征筛选,得到最优特征子集,建立影像组学标签。使用极端梯度提升(XGBoost)、逻辑回归(logistic)、朴素贝叶斯(GNB)和支持向量机(SVM)4种机器学习算法,对影像组学标签和筛选出的临床独立危险因素构建预测模型。采用受试者操作特征曲线评估模型预测胃癌VI的效能。结果:分化程度(OR=13.651,95%CI 7.265~25.650, P=0.003)、Lauren分型(OR=1.349,95%CI 1.011~1.799, P=0.042)和CA199(OR=1.796,95%CI 1.406~2.186, P=0.044)是预测局部进展期胃癌VI的独立危险因素。基于静脉期增强CT图像提取了864个影像组学特征,经LASSO筛选出18个最优特征构建组学标签。训练集中,XGBoost、logistic、GNB和SVM模型预测胃癌VI的曲线下面积(AUC)分别为0.914(95%CI 0.875~0.953)、0.897(95%CI 0.853~0.940)、0.880(95%CI 0.832~0.928)和0.814(95%CI 0.755~0.873),测试集中分别是0.870(95%CI 0.769~0.971)、0.877(95%CI 0.788~0.964)、0.859(95%CI 0.755~0.961)和0.773(95%CI 0.647~0.898)。logistic模型在测试集中AUC最大且稳定性高。 结论:基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌VI均具有较高的效能,其中logistic模型的诊断效能最佳。
...不再出现此类内容
编辑人员丨4天前
-
老年上尿路尿路上皮癌手术联合放疗效果和基于机器学习的生存预测的研究
编辑人员丨4天前
目的:探讨老年上尿路尿路上皮癌手术联合放疗效果和基于机器学习的生存预测的研究。方法:通过监测、流行病学和最终结果的数据库搜集数据。采用倾向性得分匹配两组信息。采用单因素和多因素Cox回归分析比较未放疗与放疗两组上尿路尿路上皮癌特异性生存和总生存。开发6种机器学习模型,建立预测放疗后5年肿瘤特异性生存(CSS)机器学习模型。结果:根据CSS单因素和多因素分析,未接受放疗的肿瘤特异性生存降低[95%置信区间( CI):1.151~1.618],年龄80岁以上(95% CI:1.052~1.278)、单身(95% CI:1.134~2.321)、离异(95% CI:1.255~1.877)、T3~4(95% CI:1.572~2.382)、N2~3分期(95% CI:1.162~1.987),未接受化疗(95% CI:1.108~1.608)、浸润性尿路上皮癌(95% CI:1.082~2.185)和N1(95% CI:1.229~2.282)特异性生存降低。相对于其他5种机器学习模型,极端梯度提升(XGBoost)模型最优,该模型的准确度为0.922,精度为0.923,灵敏度为0.931,F1得分为0.901,曲线下面积(AUC)为0.901。 结论:通过筛选肿瘤特异性生存的相关因素,进一步选出术后放疗生存的最佳的机器学习预测模型。
...不再出现此类内容
编辑人员丨4天前
-
PET影像组学特征多参数模型对≥60岁弥漫性大B细胞淋巴瘤患者生存预后的预测价值
编辑人员丨4天前
目的:探讨基于机器学习的 18F-FDG PET影像组学特征对≥60岁弥漫性大B细胞淋巴瘤(DLBCL)患者的预后评估价值。 方法:回顾性分析2011年3月至2019年11月166例未经治疗的DLBCL患者(年龄≥60岁)的 18F-FDG PET/CT资料,其中男88例、女78例,年龄60~93岁;训练组115例,验证组51例。对患者PET图像进行病灶勾画及影像组学特征提取,运用3种机器学习方法[最小绝对收缩和选择算子(LASSO)、随机森林(RF)和极端梯度提升(Xgboost)]筛选特征,采用支持向量机(SVM)对特征进行分类并生成影像组学标签(RS),对患者总生存(OS)进行预测。根据Cox比例风险回归模型构建多参数模型,并通过一致性指数(C-index)进行评估。 结果:共提取1 421种影像组学特征,筛选出10个预测效能强的特征并生成RS。单因素Cox回归分析示,RS[风险比( HR)=5.685, 95% CI: 2.955~10.939; P<0.001]是OS的危险因素。构建出包含RS、代谢特征及临床风险因素的多参数模型,其较临床模型、基于PET模型及美国国家综合癌症网络国际预后指数(NCCN-IPI)在预测OS上具有更高的效能(训练组C-index:0.752、0.737、0.739、0.688;验证组C-index:0.845、0.798、0.844、0.775)。 结论:基于机器学习 18F-FDG PET影像组学特征的RS是≥60岁DLBCL患者生存预后的预测因素。构建的包含影像组学特征的多参数模型能较好地预测患者预后。
...不再出现此类内容
编辑人员丨4天前
