-
基于SHAP值特征选择的γ通过率分类预测及解释
编辑人员丨6天前
目的:探索SHAP值结合极端梯度提升树(XGBoost)算法的特征选择技术来构建调强放疗γ通过率预测模型的可行性和有效性,并给出相应的模型解释。方法:回顾性分析2020年11月至2021年11月在湖南省肿瘤医院接受盆腔固定野调强放射治疗的196例肿瘤患者采用基于模体测量方式的调强放疗计划的剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的影像组学特征并使用SHAP值结合XGBoost算法进行特征筛选后构建预测模型。分别选取特征数量为50、80、110、140个,构建四种机器学习分类模型,计算曲线下面积(AUC)值、召回率及F1分数评估预测模型的分类性能。结果:基于SHAP值特征选择的110个特征构建的预测模型AUC值为0.81,召回率达到0.93,F1分数为0.82,均优于其他三个模型。结论:针对盆腔肿瘤调强放疗计划,可以采用SHAP值与XGBoost算法结合以选择用于预测的最佳影像组学特征子集来构建γ通过率的预测模型,并能通过SHAP值给出模型输出解释,可能在理解依赖机器学习模型所做的预测方面提供价值。
...不再出现此类内容
编辑人员丨6天前
-
伴右向左分流隐源性卒中患者发病风险预测模型研究
编辑人员丨6天前
目的:利用机器学习预测右向左分流(right-to-left shunt,RLS)人群隐源性卒中(cryptogenic stroke,CS)发病风险,为CS的准确和高效预测提供解决方案。方法:回顾分析2018年1月至2023年9月在青岛大学附属医院崂山院区神经内科治疗的经颅多普勒超声发泡试验(c-TCD)阳性的289例RLS人群的临床数据,包括人口统计学信息、疾病史、实验室检查指标、诊断和治疗等。使用机器学习train_test_split()函数将数据集随机分为训练集和测试集,比例为8∶2。采用Logistic回归、决策树、随机森林、极端梯度提升、人工神经网络、梯度提升、极限树和自适应增强等算法构建RLS人群CS风险预测模型,使用受试者工作特征曲线(receiver operating characteristic,ROC)及曲线下面积(area under curve,AUC)、混淆矩阵、精确率、召回率、准确率、F1值、校准曲线、决策曲线等综合评估模型性能。性能最优的模型使用特征重要性和SHAP值进行可解释性分析。使用SPSS 25.0进行 t检验、Mann-Whitney U检验和 χ2检验。采用Delong检验比较两模型间AUC的差异。 结果:289例RLS人群发生CS 166例(57.5%),非CS 123例(42.5%)。统计分析结果显示,CS患者D-二聚体、平均血小板体积、纤维蛋白原等血液生化指标高于非CS患者(均 P<0.01);训练集与测试集各变量均差异无统计学意义(均 P>0.05)。对测试集进行CS风险预测,随机森林模型取得了最高的AUC(0.885)、精确率(0.806)、召回率(0.879)、准确率(0.810)以及F1得分(0.841)。校准曲线显示随机森林模型最接近参考线,决策曲线表明随机森林模型具有更大的净受益。可解释性分析显示高风险因素包括平均血小板体积、D-二聚体、国际标准化比值、体质量指数以及年龄。 结论:基于随机森林的预测工具表现出色,在预测RLS人群CS风险方面准确性较高。
...不再出现此类内容
编辑人员丨6天前
-
基于监督机器学习算法构建脓毒性休克患者死亡风险的预测模型
编辑人员丨6天前
目的:基于不同监督机器学习算法,构建并验证适用于脓毒性休克患者28 d死亡风险的最佳预测模型。方法:从美国重症监护医学信息数据库Ⅳ v2.0(MIMIC-Ⅳ v2.0)中筛选出符合脓毒症3.0的脓毒性休克患者,随机抽取病例,其中70%作为训练集,30%作为验证集。从人口学特征及基础生命体征、入重症监护病房(ICU)24 h内血清学指标及可能影响指标的合并症、功能评分及高级生命支持3个层面提取相关预测变量。比较基于决策树分类回归树(CART)、随机森林(RF)、支持向量机(SVM)、线性回归(LR)及超级学习器〔SL,综合了CART、RF和极端梯度提升(XGBoost)〕5种主流机器学习算法构建的模型对脓毒性休克患者28 d死亡的预测效能,筛选最佳算法模型。利用LASSO回归、RF和XGBoost算法,通过取交集确定最佳预测变量,构建预测模型。采用受试者工作特征曲线(ROC曲线)验证模型的预测效能;采用校准曲线评估模型的准确性;采用决策曲线分析(DCA)验证模型的实用性。结果:最终共纳入3?295例脓毒性休克患者,28 d存活2?164例,死亡1?131例,病死率为34.32%;其中,训练集2?307例(28 d死亡792例,病死率为34.33%),验证集988例(28 d死亡339例,病死率为34.31%)。基于训练集数据分别建立5种机器学习模型;在纳入3个层面的变量后,RF、SVM、LR 3种机器学习模型在验证集预测脓毒性休克患者28 d死亡的ROC曲线下面积(AUC)依次为0.823〔95%可信区间(95% CI)为0.795~0.849〕、0.823(95% CI为0.796~0.849)、0.810(95% CI为0.782~0.838),高于CART算法模型(AUC=0.750,95% CI为0.717~0.782)和SL算法模型(AUC=0.756,95% CI为0.724~0.789),故将以上3种算法模型确定为最佳算法模型。综合3个层面变量后,通过LASSO回归、RF和XGBoost算法筛选并取交集,得出16个最佳预测变量,依次为入ICU 24 h内pH最大值、白蛋白(Alb)最大值、体温最大值、血乳酸(Lac)最小值、Lac最大值、血肌酐(SCr)最大值、Ca 2+最大值、血红蛋白(Hb)最小值、白细胞计数(WBC)最小值、年龄、简化急性生理学评分Ⅲ(SAPSⅢ)、WBC最大值、急性生理学评分Ⅲ(APSⅢ)、Na +最小值、体质量指数(BMI)及活化部分凝血活酶时间(APTT)最小值。ROC曲线分析显示,以上述16个最佳预测变量构建的Logistic回归模型为最佳预测模型,在验证集中的AUC为0.806(95% CI为0.778~0.835);校准曲线及DCA曲线显示,该模型的精准度较高,且净收益最高可达0.3,其预测效能明显优于传统以单一功能评分〔APSⅢ评分、SAPSⅢ评分、序贯器官衰竭评分(SOFA)〕建立的模型〔AUC(95% CI)分别为0.746(0.715~0.778)、0.765(0.734~0.796)、0.625(0.589~0.661)〕。 结论:以pH值、Alb、体温、Lac、SCr、Ca 2+、Hb、WBC、SAPSⅢ评分、APSⅢ评分、Na +、BMI、APTT等16个最佳变量构建的Logistic回归模型为脓毒性休克患者28 d死亡风险的最佳预测模型,其效能稳定,区分度及精准度均较高。
...不再出现此类内容
编辑人员丨6天前
-
基于机器学习建立脓毒症心肾综合征患者早期死亡风险预测模型
编辑人员丨6天前
目的:探讨机器学习算法构建脓毒症心肾综合征患者早期死亡风险预测模型的方法,为临床早期识别高危患者及精准治疗提供依据。方法:入选同济大学附属同济医院2015年1月1日至2019年5月31日期间入院的脓毒症心肾综合征患者为研究对象,收集患者确诊时的临床表现、实验室检查及治疗情况等资料。研究终点事件定义为患者确诊后30 d内死亡。运用Python软件构建不同机器学习算法模型,采用受试者工作特征曲线下面积( AUC)评估各模型的预测效能。运用构建的最优模型筛选疾病相关风险因素,构建可视化决策树模型和半朴素贝叶斯(sNB)模型。 结果:340例患者入选本研究,其中114例(33.5%)患者确诊后30 d内死亡。支持向量机(SVM )、随机森林(RF)、梯度提升树(GBDT) 、极端梯度提升(XGBoost)和轻量梯度提升(LGBM)5种模型的 AUC值分别为0.652、0.868、0.870、0.754和0.852,其中GBDT模型预测患者发生终点事件的 AUC值最优。依据GBDT模型特征重要度评分筛选出前10项患者预后的影响因素,包括序贯器官衰竭评估(SOFA)总评分、神经系统SOFA评分、血管活性药物应用史、高敏肌钙蛋白(cTNI)、年龄、肌红蛋白(MYO)、循环系统SOFA评分、慢性肾脏病史、心率和基线血肌酐值等参数,建立可视化决策树模型,模型共4层,15个节点,8个终端节点。依据SOFA总评分、MYO变化率、基线血肌酐值和年龄等4项影响因素建立决策树流程,模型预测患者发生终点事件的 AUC值为0.690。sNB模型提示总SOFA总评分与神经系统SOFA评分、SOFA总评分与血管活性药物、cTNI与基线血肌酐值间的相互作用影响患者的短期预后。 结论:基于机器学习建立的脓毒症心肾综合征患者早期死亡风险预测模型结果提示,高SOFA评分仍然是预测脓毒症心肾综合征患者预后不良的首要危险因素。本研究建立的可视化决策树模型和sNB模型可在疾病早期针对高危患者进行临床判断,为脓毒症患者的精准治疗提供预测依据。
...不再出现此类内容
编辑人员丨6天前
-
基于放射组学的盆腔肿瘤不同调强放疗技术γ通过率的预测研究
编辑人员丨6天前
目的:采用基于放射组学的机器学习方法,探索盆腔肿瘤不同调强放疗技术下γ通过率(GPR)分类预测模型的可行性,并比较了4种集成树模型的分类性能。方法:回顾性收集了409例使用不同调强放疗技术的计划,采用基于模体测量方式的三维剂量验证结果,γ通过率标准为3%/2 mm、10%剂量阈值。提取基于剂量文件的放射组学特征构建预测模型。分别采用随机森林、自适应增强、极端梯度提升树和轻量级梯度提升机4种机器学习算法,并且通过计算灵敏度、特异度、 F1分数及曲线下面积(AUC)值来评估它们的分类性能。 结果:随机森林、自适应增强、极端梯度提升树、轻量级梯度提升机模型的灵敏度和特异度分别为0.96、0.82、0.93、0.89和0.38、0.54、0.62、0.62, F1分数和AUC值分别为0.86、0.81、0.88、0.86和0.81、0.77、0.85、0.83。其中极端梯度提升树模型的灵敏度达到0.93,特异度、 F1分数和AUC值均为最高,要优于其他3种模型。 结论:针对采用不同调强放疗技术的盆腔肿瘤调强计划,使用基于放射组学的机器学习方法来构建伽马通过率分类预测模型具有一定的可行性,能够为将来GPR预测的多机构合作研究提供基础。
...不再出现此类内容
编辑人员丨6天前
-
钆塞酸二钠增强MRI影像组学和机器学习术前预测肝细胞癌微血管侵犯的价值
编辑人员丨6天前
目的:探讨基于钆塞酸二钠增强MRI肝胆期影像组学特征的不同机器学习模型术前预测肝细胞癌(HCC)微血管侵犯(MVI)的价值。方法:回顾性分析2015年6月至2020年6月在苏州大学附属第一医院经病理证实的132例HCC患者的资料,MVI阳性72例、阴性60例。按照7∶3的比例以随机种子法分为训练集和验证集。利用PyRadiomics软件提取肝胆期图像影像组学特征,采用最小绝对收缩和选择算子(LASSO)回归5折交叉验证法对训练集临床和影像组学特征进行筛选,得到最优特征子集,然后用6种机器学习方法(决策树、极端梯度提升、随机森林、支持向量机、广义线性模型和神经网络)构建预测模型,采用ROC曲线评估模型的预测能力,采用DeLong检验比较6种机器学习算法曲线下面积(AUC)的差异。结果:经LASSO回归筛选后获得14个特征组成最优特征子集,包括2个临床特征(肿瘤最大径和甲胎蛋白)和12个影像组学特征。训练集中基于最优特征子集构建的决策树、极端梯度提升、随机森林、支持向量机、广义线性模型和神经网络模型预测HCC MVI的AUC值分别为0.969、1.000、1.000、0.991、0.966和1.000,验证集的AUC值分别为0.781、0.890、0.920、0.806、0.684和0.703。验证集中,极端梯度提升与广义线性模型、神经网络的AUC的差异有统计学意义( Z=2.857、3.220, P=0.004、0.001),随机森林与支持向量机、广义线性模型和神经网络AUC的差异有统计学意义( Z=2.371、3.190、3.967, P=0.018、0.001、<0.001),支持向量机与广义线性模型AUC的差异有统计学意义( Z=2.621, P=0.009),其余机器学习模型间AUC的差异均无统计学意义( P>0.05)。 结论:基于钆塞酸二钠增强MRI肝胆期图像的影像组学特征构建的机器学习模型可用于术前预测HCC MVI,其中,极端梯度提升和随机森林模型具有较高的预测效能。
...不再出现此类内容
编辑人员丨6天前
-
机器学习在山西省农村地区蛋白尿筛查中的初探
编辑人员丨6天前
目的:筛查山西省农村地区蛋白尿的发生率,构建基于机器学习算法的蛋白尿风险预测模型。方法:该研究为横断面调查研究。采用多阶段分层抽样方法,筛查2019年4—11月山西省8个地级市(太原、阳泉、临汾、运城、吕梁、晋中、晋城、忻州)农村地区≥30岁的居民,收集居民的问卷调查、体格检查和实验室检查资料。蛋白尿定义为尿白蛋白/肌酐比值≥30 mg/g,统计蛋白尿的发生率。将参与者分为蛋白尿组和无蛋白尿组,分别采用基于堆叠法构建的Logistic回归集成算法(SE-LR)、Logistic回归、支持向量机、决策树、随机森林和极端梯度提升构建蛋白尿和无蛋白尿的机器学习二分类模型。采用受试者工作特征曲线下面积、精准率、召回率和F1加权值评估各模型的预测效能,最后对综合性能最优模型预测特征的重要性排序。结果:该研究纳入8 869名农村地区居民,年龄为(58.59±9.49)岁,男性3 872例(43.66%),女性4 997例(56.34%),蛋白尿的发生率为13.49%(1 196/8 869)。蛋白尿组参与者血压、脉搏、体重指数、腰围、肥胖或超重比例、高血压比例、摄盐量中重度比例、糖化血红蛋白、尿酸碱度、尿比重、尿潜血阳性比例、尿糖阳性比例、尿酮体阳性比例、尿红细胞数≥5个/μl比例、尿白细胞数≥10个/μl比例及尿α1微球蛋白均高于无蛋白尿组,缺乏运动比例和饮酒史比例均低于无蛋白尿组(均 P<0.05)。评估多个模型,SE-LR模型综合性能最优,曲线下面积(0.736,95% CI 0.719~0.746)略低于Logistic回归模型(0.745,95% CI 0.680~0.762),精准率(0.844)、召回率(0.621)及F1加权值(0.801)最高。SE-LR模型中,前10个特征的重要性排序分别为尿α1微球蛋白、尿潜血、尿糖、尿酸碱度、吸烟、超重或肥胖、体重指数、总胆固醇、糖化血红蛋白及高血压。 结论:山西省农村地区蛋白尿的发生率较高,通过机器学习建立的蛋白尿风险预测模型可以预测蛋白尿的发生风险,并识别其风险因素,可在一定程度上为社区和临床的疾病预防、干预和治疗提供科学依据。
...不再出现此类内容
编辑人员丨6天前
-
增强CT影像组学和机器学习在术前预测肝细胞癌微血管侵犯中的应用价值
编辑人员丨6天前
目的:探讨基于双期增强CT影像组学特征的机器学习模型术前预测肝细胞癌微血管侵犯(MVI)的价值。方法:回顾性分析2015年1月至2020年5月在苏州大学附属第一医院经病理确诊的148例[男106例,女42例,年龄(58±11)岁]肝细胞癌患者的资料,其中MVI阳性88例,MVI阴性60例。按照约7∶3的比例随机分配为训练集和验证集。利用MaZda软件提取肝细胞癌动脉期和门静脉期3D影像组学特征,采用3种特征选择方法联合(FPM法)和Lasso回归进行特征筛选,得到最优特征子集。然后用6种机器学习算法构建预测模型,采用受试者工作特征(ROC)曲线评估模型的预测能力,并计算出曲线下面积(AUC)、准确度、灵敏度和特异度。结果:MaZda软件提取肝细胞癌动脉期和门静脉期的影像组学特征,各239个。利用FPM法和Lasso 回归进行特征筛选可分别得到7个动脉期和14个门静脉期最优特征。基于动脉期的7个最优特征构建的决策树、极端梯度提升、随机森林、支持向量机、广义线性模型和神经网络等模型预测验证集肝细胞癌MVI的AUC值分别为0.736、0.910、0.913、0.915、0.897、0.648,其中支持向量机的AUC值最高,其准确度、灵敏度和特异度分别为95.35%、95.83%和94.74%。利用门静脉期的14个最优特征构建的上述机器学习模型预测验证集肝细胞癌MVI的AUC值分别为0.873、0.876、0.913、0.859、0.877、0.834,其差异均无统计学意义(均 P>0.05),其中随机森林模型的AUC值最高,其准确度、灵敏度和特异度分别为90.70%、87.50%和94.74%。 结论:基于双期增强CT影像组学特征的机器学习模型可用于术前预测肝细胞癌微血管侵犯。其中,支持向量机和随机森林模型具有较高的预测效能。
...不再出现此类内容
编辑人员丨6天前
-
机器学习在败血症患者急性肾损伤预测中的应用
编辑人员丨6天前
急性肾损伤(AKI)是脓毒症最常见、最严重的并发症,具有较高的病死率和疾病负担。AKI的早期预测是及时干预并最终改善预后的关键。脓毒症患者AKI的预测一直是危重病医学研究的热点。近年来,由于统计理论和计算机技术的发展,机器学习引起了临床医生的关注和认可。该研究旨在建立并验证基于新型机器学习算法的预测模型用于预测危重脓毒症患者的AKI发生。该研究从重症监护室医疗信息集Ⅲ(MIMIC-Ⅲ)数据库中提取脓毒症患者资料,使用Boruta算法进行特征选择,采用logistic回归、k-近邻算法(KNN)、支持向量机(SVM)、决策树、随机森林、极端梯度提升(XGBoost)和人工神经网络(ANN)等机器学习算法和十倍交叉验证的方法进行模型构建。分别从鉴别、校准和临床应用方面评估这些模型的性能。此外,比较基于机器学习模型与序贯器官衰竭评估(SOFA)模型和定制的简化急性生理机能评分Ⅱ(SAPSⅡ)模型的鉴别能力。共纳入3 176例脓毒症危重患者进行分析,其中2 397例(75.5%)在住院期间发生AKI,共选取36个变量进行模型构建,建立logistic回归、KNN、SVM、决策树、随机森林、ANN、XGBoost、SOFA和SAPSⅡ评分等模型,得到受试者工作特征曲线下面积分别为0.736、0.664、0.735、0.749、0.779、0.755、0.821、0.646和0.702。在所有模型中,XGBoost模型在鉴别、校准和临床应用方面的预测性能最好。因此,该研究认为机器学习模型是预测脓毒症患者AKI的可靠工具。其中,XGBoost模型具有最佳的预测性能,可用于协助临床医生识别高危患者并实施早期干预以降低死亡率。
...不再出现此类内容
编辑人员丨6天前
-
基于机器学习构建甘肃省不同地区糖尿病性视网膜病变的临床预测模型
编辑人员丨6天前
目的:基于机器学习构建甘肃省平原风沙与黄土丘陵地区糖尿病性视网膜病变(DR)的临床预测模型并分析其影响因素。方法:为横断面研究。基于中国糖尿病并发症(CNDCS)研究的甘肃省流行病学数据进行模型的建立与验证。采用多阶段分层随机抽样的方法纳入2型糖尿病(T2DM)患者并按照7∶3的比例生成训练集和测试集。收集平原风沙与黄土丘陵地区T2DM患者并发DR的情况。采用递归特征消除(RFE)的方法筛选出两地区的最优变量,选用逻辑回归(LR)、决策树(DT)、支持向量机(SVM)、随机森林(RF)和极端梯度提升树(XGBoost)5种机器算法进行模型的训练,采用曲线下面积(AUC)对5种机器算法进行比较,并筛选出最优模型,进一步采用沙普利可加性特征解释(SHAP)分析法直观地解释最优机器学习模型的结果。结果:共纳入1 739例T2DM患者。其中有23.63%(411/1 739)的患者并发DR。RFE法结果显示,平原风沙与黄土丘陵地区最终分别筛选出8和14个最优变量。通过综合评价,平原风沙与黄土丘陵地区的最佳临床预测模型分别为RF(训练集AUC=0.874,测试集AUC=0.737)和XGBoost(训练集AUC=0.899,测试集AUC=0.783)。进一步进行的SHAP分析法结果显示,RF模型中排在前5位的重要区分特征为糖化血红蛋白(HbA 1c)、糖尿病病程、心率、尿微量白蛋白、收缩压,XGBoost模型中排在前5位的重要区分特征为糖尿病病程、尿微量白蛋白、血清白蛋白、尿素氮、HbA 1c。 结论:RF与XGBoost模型对DR风险指标的评估具有较高的可靠性。糖尿病病程、HbA 1c、尿微量白蛋白是DR的影响因素。
...不再出现此类内容
编辑人员丨6天前
