-
基于静脉期增强CT影像组学的机器学习模型术前预测局部进展期胃癌脉管侵犯
编辑人员丨1周前
目的:评估基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌脉管侵犯(VI)的价值。方法:回顾性分析2011年7月至2020年12月郑州大学第一附属医院经病理证实的296例局部进展期胃癌患者,VI阳性213例、阴性83例,采用分层抽样方法按7∶3的比例将数据分为训练集(207例)和测试集(89例)。记录患者临床特征,采用多因素logistic回归筛选胃癌VI的独立危险因素。利用Pyradiomics软件提取肿瘤静脉期CT影像组学特征,采用最小绝对收缩和选择算法(LASSO)进行特征筛选,得到最优特征子集,建立影像组学标签。使用极端梯度提升(XGBoost)、逻辑回归(logistic)、朴素贝叶斯(GNB)和支持向量机(SVM)4种机器学习算法,对影像组学标签和筛选出的临床独立危险因素构建预测模型。采用受试者操作特征曲线评估模型预测胃癌VI的效能。结果:分化程度(OR=13.651,95%CI 7.265~25.650, P=0.003)、Lauren分型(OR=1.349,95%CI 1.011~1.799, P=0.042)和CA199(OR=1.796,95%CI 1.406~2.186, P=0.044)是预测局部进展期胃癌VI的独立危险因素。基于静脉期增强CT图像提取了864个影像组学特征,经LASSO筛选出18个最优特征构建组学标签。训练集中,XGBoost、logistic、GNB和SVM模型预测胃癌VI的曲线下面积(AUC)分别为0.914(95%CI 0.875~0.953)、0.897(95%CI 0.853~0.940)、0.880(95%CI 0.832~0.928)和0.814(95%CI 0.755~0.873),测试集中分别是0.870(95%CI 0.769~0.971)、0.877(95%CI 0.788~0.964)、0.859(95%CI 0.755~0.961)和0.773(95%CI 0.647~0.898)。logistic模型在测试集中AUC最大且稳定性高。 结论:基于静脉期增强CT影像组学特征的机器学习模型术前预测局部进展期胃癌VI均具有较高的效能,其中logistic模型的诊断效能最佳。
...不再出现此类内容
编辑人员丨1周前
-
基于SHAP值特征选择的γ通过率分类预测及解释
编辑人员丨1周前
目的:探索SHAP值结合极端梯度提升树(XGBoost)算法的特征选择技术来构建调强放疗γ通过率预测模型的可行性和有效性,并给出相应的模型解释。方法:回顾性分析2020年11月至2021年11月在湖南省肿瘤医院接受盆腔固定野调强放射治疗的196例肿瘤患者采用基于模体测量方式的调强放疗计划的剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的影像组学特征并使用SHAP值结合XGBoost算法进行特征筛选后构建预测模型。分别选取特征数量为50、80、110、140个,构建四种机器学习分类模型,计算曲线下面积(AUC)值、召回率及F1分数评估预测模型的分类性能。结果:基于SHAP值特征选择的110个特征构建的预测模型AUC值为0.81,召回率达到0.93,F1分数为0.82,均优于其他三个模型。结论:针对盆腔肿瘤调强放疗计划,可以采用SHAP值与XGBoost算法结合以选择用于预测的最佳影像组学特征子集来构建γ通过率的预测模型,并能通过SHAP值给出模型输出解释,可能在理解依赖机器学习模型所做的预测方面提供价值。
...不再出现此类内容
编辑人员丨1周前
-
伴右向左分流隐源性卒中患者发病风险预测模型研究
编辑人员丨1周前
目的:利用机器学习预测右向左分流(right-to-left shunt,RLS)人群隐源性卒中(cryptogenic stroke,CS)发病风险,为CS的准确和高效预测提供解决方案。方法:回顾分析2018年1月至2023年9月在青岛大学附属医院崂山院区神经内科治疗的经颅多普勒超声发泡试验(c-TCD)阳性的289例RLS人群的临床数据,包括人口统计学信息、疾病史、实验室检查指标、诊断和治疗等。使用机器学习train_test_split()函数将数据集随机分为训练集和测试集,比例为8∶2。采用Logistic回归、决策树、随机森林、极端梯度提升、人工神经网络、梯度提升、极限树和自适应增强等算法构建RLS人群CS风险预测模型,使用受试者工作特征曲线(receiver operating characteristic,ROC)及曲线下面积(area under curve,AUC)、混淆矩阵、精确率、召回率、准确率、F1值、校准曲线、决策曲线等综合评估模型性能。性能最优的模型使用特征重要性和SHAP值进行可解释性分析。使用SPSS 25.0进行 t检验、Mann-Whitney U检验和 χ2检验。采用Delong检验比较两模型间AUC的差异。 结果:289例RLS人群发生CS 166例(57.5%),非CS 123例(42.5%)。统计分析结果显示,CS患者D-二聚体、平均血小板体积、纤维蛋白原等血液生化指标高于非CS患者(均 P<0.01);训练集与测试集各变量均差异无统计学意义(均 P>0.05)。对测试集进行CS风险预测,随机森林模型取得了最高的AUC(0.885)、精确率(0.806)、召回率(0.879)、准确率(0.810)以及F1得分(0.841)。校准曲线显示随机森林模型最接近参考线,决策曲线表明随机森林模型具有更大的净受益。可解释性分析显示高风险因素包括平均血小板体积、D-二聚体、国际标准化比值、体质量指数以及年龄。 结论:基于随机森林的预测工具表现出色,在预测RLS人群CS风险方面准确性较高。
...不再出现此类内容
编辑人员丨1周前
-
基于监督机器学习算法构建脓毒性休克患者死亡风险的预测模型
编辑人员丨1周前
目的:基于不同监督机器学习算法,构建并验证适用于脓毒性休克患者28 d死亡风险的最佳预测模型。方法:从美国重症监护医学信息数据库Ⅳ v2.0(MIMIC-Ⅳ v2.0)中筛选出符合脓毒症3.0的脓毒性休克患者,随机抽取病例,其中70%作为训练集,30%作为验证集。从人口学特征及基础生命体征、入重症监护病房(ICU)24 h内血清学指标及可能影响指标的合并症、功能评分及高级生命支持3个层面提取相关预测变量。比较基于决策树分类回归树(CART)、随机森林(RF)、支持向量机(SVM)、线性回归(LR)及超级学习器〔SL,综合了CART、RF和极端梯度提升(XGBoost)〕5种主流机器学习算法构建的模型对脓毒性休克患者28 d死亡的预测效能,筛选最佳算法模型。利用LASSO回归、RF和XGBoost算法,通过取交集确定最佳预测变量,构建预测模型。采用受试者工作特征曲线(ROC曲线)验证模型的预测效能;采用校准曲线评估模型的准确性;采用决策曲线分析(DCA)验证模型的实用性。结果:最终共纳入3?295例脓毒性休克患者,28 d存活2?164例,死亡1?131例,病死率为34.32%;其中,训练集2?307例(28 d死亡792例,病死率为34.33%),验证集988例(28 d死亡339例,病死率为34.31%)。基于训练集数据分别建立5种机器学习模型;在纳入3个层面的变量后,RF、SVM、LR 3种机器学习模型在验证集预测脓毒性休克患者28 d死亡的ROC曲线下面积(AUC)依次为0.823〔95%可信区间(95% CI)为0.795~0.849〕、0.823(95% CI为0.796~0.849)、0.810(95% CI为0.782~0.838),高于CART算法模型(AUC=0.750,95% CI为0.717~0.782)和SL算法模型(AUC=0.756,95% CI为0.724~0.789),故将以上3种算法模型确定为最佳算法模型。综合3个层面变量后,通过LASSO回归、RF和XGBoost算法筛选并取交集,得出16个最佳预测变量,依次为入ICU 24 h内pH最大值、白蛋白(Alb)最大值、体温最大值、血乳酸(Lac)最小值、Lac最大值、血肌酐(SCr)最大值、Ca 2+最大值、血红蛋白(Hb)最小值、白细胞计数(WBC)最小值、年龄、简化急性生理学评分Ⅲ(SAPSⅢ)、WBC最大值、急性生理学评分Ⅲ(APSⅢ)、Na +最小值、体质量指数(BMI)及活化部分凝血活酶时间(APTT)最小值。ROC曲线分析显示,以上述16个最佳预测变量构建的Logistic回归模型为最佳预测模型,在验证集中的AUC为0.806(95% CI为0.778~0.835);校准曲线及DCA曲线显示,该模型的精准度较高,且净收益最高可达0.3,其预测效能明显优于传统以单一功能评分〔APSⅢ评分、SAPSⅢ评分、序贯器官衰竭评分(SOFA)〕建立的模型〔AUC(95% CI)分别为0.746(0.715~0.778)、0.765(0.734~0.796)、0.625(0.589~0.661)〕。 结论:以pH值、Alb、体温、Lac、SCr、Ca 2+、Hb、WBC、SAPSⅢ评分、APSⅢ评分、Na +、BMI、APTT等16个最佳变量构建的Logistic回归模型为脓毒性休克患者28 d死亡风险的最佳预测模型,其效能稳定,区分度及精准度均较高。
...不再出现此类内容
编辑人员丨1周前
-
基于机器学习建立脓毒症心肾综合征患者早期死亡风险预测模型
编辑人员丨1周前
目的:探讨机器学习算法构建脓毒症心肾综合征患者早期死亡风险预测模型的方法,为临床早期识别高危患者及精准治疗提供依据。方法:入选同济大学附属同济医院2015年1月1日至2019年5月31日期间入院的脓毒症心肾综合征患者为研究对象,收集患者确诊时的临床表现、实验室检查及治疗情况等资料。研究终点事件定义为患者确诊后30 d内死亡。运用Python软件构建不同机器学习算法模型,采用受试者工作特征曲线下面积( AUC)评估各模型的预测效能。运用构建的最优模型筛选疾病相关风险因素,构建可视化决策树模型和半朴素贝叶斯(sNB)模型。 结果:340例患者入选本研究,其中114例(33.5%)患者确诊后30 d内死亡。支持向量机(SVM )、随机森林(RF)、梯度提升树(GBDT) 、极端梯度提升(XGBoost)和轻量梯度提升(LGBM)5种模型的 AUC值分别为0.652、0.868、0.870、0.754和0.852,其中GBDT模型预测患者发生终点事件的 AUC值最优。依据GBDT模型特征重要度评分筛选出前10项患者预后的影响因素,包括序贯器官衰竭评估(SOFA)总评分、神经系统SOFA评分、血管活性药物应用史、高敏肌钙蛋白(cTNI)、年龄、肌红蛋白(MYO)、循环系统SOFA评分、慢性肾脏病史、心率和基线血肌酐值等参数,建立可视化决策树模型,模型共4层,15个节点,8个终端节点。依据SOFA总评分、MYO变化率、基线血肌酐值和年龄等4项影响因素建立决策树流程,模型预测患者发生终点事件的 AUC值为0.690。sNB模型提示总SOFA总评分与神经系统SOFA评分、SOFA总评分与血管活性药物、cTNI与基线血肌酐值间的相互作用影响患者的短期预后。 结论:基于机器学习建立的脓毒症心肾综合征患者早期死亡风险预测模型结果提示,高SOFA评分仍然是预测脓毒症心肾综合征患者预后不良的首要危险因素。本研究建立的可视化决策树模型和sNB模型可在疾病早期针对高危患者进行临床判断,为脓毒症患者的精准治疗提供预测依据。
...不再出现此类内容
编辑人员丨1周前
-
基于机器学习的艾司奥美拉唑相关急性肾损伤风险预测模型的构建与验证
编辑人员丨1周前
目的:分析接受艾司奥美拉唑治疗的住院患者发生急性肾损伤(AKI)的影响因素,构建艾司奥美拉唑相关AKI的风险预测模型。方法:研究设计为回顾性研究。研究对象选自2018年1月至2020年12月于山东第一医科大学第一附属医院住院并接受艾司奥美拉唑治疗的患者。通过医院电子病历系统收集患者临床资料,包括患者基本信息、手术类型、干预措施、用药信息和实验室检查结果。根据是否发生艾司奥美拉唑相关AKI将患者分为AKI组和非AKI组,比较2组临床特征。采用最小绝对收缩和选择算子(LASSO回归)分析艾司奥美拉唑相关AKI的影响因素。以8∶2的比例将患者随机分为训练集和测试集。基于训练集数据,采用5种机器学习算法[logistic回归(LR)、随机森林(RF)、梯度提升机(GBM)、极端梯度提升(XGBoost)和轻量梯度提升机(LightGBM)]建立艾司奥美拉唑相关AKI预测模型;基于测试集数据,比较5种模型的受试者工作特征曲线下面积(AUC)、敏感性、特异性和准确率。结果:共有5 436例患者纳入研究,包括男性3 231例、女性2 205例,年龄61(51,70)岁。393例(7.23%)发生艾司奥美拉唑相关AKI。LASSO回归分析共筛选出24个与艾司奥美拉唑相关AKI密切相关的变量,包括肝功能不全、慢性肾功能不全、低蛋白血症等。基于训练集(4 349例)数据构建艾司奥美拉唑相关AKI风险预测模型,结果显示5种模型的预测性能均良好(AUC均大于0.900)。以测试集(1 087例)数据对5种模型的预测性能进行验证,发现GBM模型的AUC最高(0.922),且预测性能较为稳定(在训练集与测试集中各项指标差异较小)。结论:应用艾司奥美拉唑与AKI发生明显相关,发生风险受患者基线肾功能、合并疾病及合并使用的其他药物等因素影响。基于GBM算法构建的风险预测模型,有助于临床对艾司奥美拉唑相关AKI发生风险进行早期评估。
...不再出现此类内容
编辑人员丨1周前
-
基于放射组学的盆腔肿瘤不同调强放疗技术γ通过率的预测研究
编辑人员丨1周前
目的:采用基于放射组学的机器学习方法,探索盆腔肿瘤不同调强放疗技术下γ通过率(GPR)分类预测模型的可行性,并比较了4种集成树模型的分类性能。方法:回顾性收集了409例使用不同调强放疗技术的计划,采用基于模体测量方式的三维剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的放射组学特征构建预测模型。分别采用随机森林、自适应增强、极端梯度提升树和轻量级梯度提升机4种机器学习算法,并且通过计算灵敏度、特异度、 F1分数及曲线下面积(AUC)值来评估它们的分类性能。 结果:随机森林、自适应增强、极端梯度提升树、轻量级梯度提升机模型的灵敏度和特异度分别为0.96、0.82、0.93、0.89和0.38、0.54、0.62、0.62, F1分数和AUC值分别为0.86、0.81、0.88、0.86和0.81、0.77、0.85、0.83。其中极端梯度提升树模型的灵敏度达到0.93,特异度、 F1分数和AUC值均为最高,要优于其他3种模型。 结论:针对采用不同调强放疗技术的盆腔肿瘤调强计划,使用基于放射组学的机器学习方法来构建伽马通过率分类预测模型具有一定的可行性,能够为将来GPR预测的多机构合作研究提供基础。
...不再出现此类内容
编辑人员丨1周前
-
钆塞酸二钠增强MRI影像组学和机器学习术前预测肝细胞癌微血管侵犯的价值
编辑人员丨1周前
目的:探讨基于钆塞酸二钠增强MRI肝胆期影像组学特征的不同机器学习模型术前预测肝细胞癌(HCC)微血管侵犯(MVI)的价值。方法:回顾性分析2015年6月至2020年6月在苏州大学附属第一医院经病理证实的132例HCC患者的资料,MVI阳性72例、阴性60例。按照7∶3的比例以随机种子法分为训练集和验证集。利用PyRadiomics软件提取肝胆期图像影像组学特征,采用最小绝对收缩和选择算子(LASSO)回归5折交叉验证法对训练集临床和影像组学特征进行筛选,得到最优特征子集,然后用6种机器学习方法(决策树、极端梯度提升、随机森林、支持向量机、广义线性模型和神经网络)构建预测模型,采用ROC曲线评估模型的预测能力,采用DeLong检验比较6种机器学习算法曲线下面积(AUC)的差异。结果:经LASSO回归筛选后获得14个特征组成最优特征子集,包括2个临床特征(肿瘤最大径和甲胎蛋白)和12个影像组学特征。训练集中基于最优特征子集构建的决策树、极端梯度提升、随机森林、支持向量机、广义线性模型和神经网络模型预测HCC MVI的AUC值分别为0.969、1.000、1.000、0.991、0.966和1.000,验证集的AUC值分别为0.781、0.890、0.920、0.806、0.684和0.703。验证集中,极端梯度提升与广义线性模型、神经网络的AUC的差异有统计学意义( Z=2.857、3.220, P=0.004、0.001),随机森林与支持向量机、广义线性模型和神经网络AUC的差异有统计学意义( Z=2.371、3.190、3.967, P=0.018、0.001、<0.001),支持向量机与广义线性模型AUC的差异有统计学意义( Z=2.621, P=0.009),其余机器学习模型间AUC的差异均无统计学意义( P>0.05)。 结论:基于钆塞酸二钠增强MRI肝胆期图像的影像组学特征构建的机器学习模型可用于术前预测HCC MVI,其中,极端梯度提升和随机森林模型具有较高的预测效能。
...不再出现此类内容
编辑人员丨1周前
-
基于XGBoost算法的机器学习模型在早期预测重症急性胰腺炎中的应用
编辑人员丨1周前
目的:基于极端梯度提升(XGBoost)算法建立重症急性胰腺炎(SAP)早期预测机器学习模型,并探讨其预测效能。方法:采用回顾性队列研究方法,选择2020年1月1日至2021年12月31日苏州大学附属第一医院、苏州大学附属第二医院及苏州大学附属常熟医院收治的急性胰腺炎(AP)患者,根据病历系统与影像系统收集患者的人口学信息、病因、既往史及入院48 h内临床指标和影像学资料,并计算改良CT严重指数评分(MCTSI)、Ranson评分、急性胰腺炎严重程度床旁指数(BISAP)及急性胰腺炎风险评分(SABP)。将苏州大学附属第一医院及苏州大学附属常熟医院的数据集按照8 : 2随机分为训练集和验证集,基于XGBoost算法,在采用五折交叉验证、损失函数进行超参数调整的基础上构建SAP预测模型。将苏州大学附属第二医院的数据集作为独立的测试集,通过受试者工作特征曲线(ROC曲线)评价XGBoost模型的预测效能,并与传统AP相关病情严重程度评分进行比较;同时对特征变量进行重要性排序,采用沙普利加和解释法(SHAP)对模型进行可视化解释。结果:最终共纳入1?183例AP患者,其中129例(10.9%)发生SAP。苏州大学附属第一医院和苏州大学附属常熟医院患者中,训练集786例,验证集197例;苏州大学附属第二医院的200例患者作为测试集。3组数据集分析均显示,进展为SAP的患者存在呼吸功能异常、凝血功能异常、肝肾功能异常、血脂代谢异常等病理表现。基于XGBoost算法构建SAP预测模型;ROC曲线分析显示,该模型预测SAP的准确度达到0.830,ROC曲线下面积(AUC)为0.927,较MCTSI、Ranson、BISAP、SABP等传统评分系统明显提高(准确度分别为0.610、0.690、0.763、0.625,AUC分别为0.689、0.631、0.875、0.770)。基于XGBoost模型的特征变量重要性分析显示,模型中权重排名前10位的指标依次为胸腔积液(0.119)、白蛋白(Alb,0.049)、三酰甘油(TG,0.036)、Ca 2+(0.034)、凝血酶原时间(PT,0.031)、全身炎症反应综合征(SIRS,0.031)、C-反应蛋白(CRP,0.031)、血小板计数(PLT,0.030)、乳酸脱氢酶(LDH,0.029)和碱性磷酸酶(ALP,0.028),说明上述指标对于XGBoost模型预测SAP具有重要意义。基于XGBoost模型的SHAP贡献度分析显示,当患者出现胸腔积液及Alb降低时,SAP发生风险明显增加。 结论:基于机器学习XGBoost算法建立了SAP预测模型,该模型可在入院48 h内对AP患者进展为重症的风险进行预测,且具有良好的准确性。
...不再出现此类内容
编辑人员丨1周前
-
机器学习在山西省农村地区蛋白尿筛查中的初探
编辑人员丨1周前
目的:筛查山西省农村地区蛋白尿的发生率,构建基于机器学习算法的蛋白尿风险预测模型。方法:该研究为横断面调查研究。采用多阶段分层抽样方法,筛查2019年4—11月山西省8个地级市(太原、阳泉、临汾、运城、吕梁、晋中、晋城、忻州)农村地区≥30岁的居民,收集居民的问卷调查、体格检查和实验室检查资料。蛋白尿定义为尿白蛋白/肌酐比值≥30 mg/g,统计蛋白尿的发生率。将参与者分为蛋白尿组和无蛋白尿组,分别采用基于堆叠法构建的Logistic回归集成算法(SE-LR)、Logistic回归、支持向量机、决策树、随机森林和极端梯度提升构建蛋白尿和无蛋白尿的机器学习二分类模型。采用受试者工作特征曲线下面积、精准率、召回率和F1加权值评估各模型的预测效能,最后对综合性能最优模型预测特征的重要性排序。结果:该研究纳入8 869名农村地区居民,年龄为(58.59±9.49)岁,男性3 872例(43.66%),女性4 997例(56.34%),蛋白尿的发生率为13.49%(1 196/8 869)。蛋白尿组参与者血压、脉搏、体重指数、腰围、肥胖或超重比例、高血压比例、摄盐量中重度比例、糖化血红蛋白、尿酸碱度、尿比重、尿潜血阳性比例、尿糖阳性比例、尿酮体阳性比例、尿红细胞数≥5个/μl比例、尿白细胞数≥10个/μl比例及尿α1微球蛋白均高于无蛋白尿组,缺乏运动比例和饮酒史比例均低于无蛋白尿组(均 P<0.05)。评估多个模型,SE-LR模型综合性能最优,曲线下面积(0.736,95% CI 0.719~0.746)略低于Logistic回归模型(0.745,95% CI 0.680~0.762),精准率(0.844)、召回率(0.621)及F1加权值(0.801)最高。SE-LR模型中,前10个特征的重要性排序分别为尿α1微球蛋白、尿潜血、尿糖、尿酸碱度、吸烟、超重或肥胖、体重指数、总胆固醇、糖化血红蛋白及高血压。 结论:山西省农村地区蛋白尿的发生率较高,通过机器学习建立的蛋白尿风险预测模型可以预测蛋白尿的发生风险,并识别其风险因素,可在一定程度上为社区和临床的疾病预防、干预和治疗提供科学依据。
...不再出现此类内容
编辑人员丨1周前
