-
基于集成机器学习构建胰十二指肠术后胰瘘风险预测模型及其验证
编辑人员丨6天前
目的:构建并验证预测胰十二指肠切除术后患者发生临床相关术后胰瘘(CR-POPF)的集成机器学习模型。方法:本研究为预测模型研究。回顾性收集2020年6月至2023年5月在华中科技大学同济医学院附属协和医院胰腺外科接受胰十二指肠切除术的421例患者的临床资料。其中男性241例(57.2%),女性180例(42.8%),年龄(59.7±11.0)岁(范围:12~85岁)。通过分层随机抽样法将研究对象按照3∶1的比例分为训练集(315例)和测试集(106例)。使用递归特征消除算法对特征进行筛选,运用9种机器学习算法分别建模,挑选拟合能力较优的三组模型,通过Stacking算法进行模型融合构建集成模型。通过多种指标评估模型性能,并使用Shapley Additive Explanations(SHAP)方法对最优模型进行可解释性分析。根据替代胰瘘风险评分系统(a-FRS)的预测概率(P)将测试集患者分为不同风险组,对a-FRS评分进行验证并比较其与所建模型的预测效能。结果:421例患者中,发生CR-POPF 84例(20.0%)。在测试集中,Stacking集成模型表现最佳,其受试者工作特征曲线的曲线下面积(AUC)为 0.823,准确率为0.83,F1分数为0.63,Brier 得分为0.097。SHAP总结图显示,影响胰十二指肠切除术后发生CR-POPF的前9位因素依次为胰管直径、CT值比值、术后血清淀粉酶、IL-6水平、体重指数、手术时间、术前术后白蛋白差值、降钙素原及IL-10。各个因素对胰十二指肠切除术后CR-POPF 发生的影响均呈现出复杂的非线性关系。当胰管直径<3.5 mm、CT 值比值<0.95、术后血清淀粉酶浓度>150 U/L、IL-6 水平>280 ng/L、手术时间>350 min、白蛋白降低超过10 g/L时,发生CR-POPF的风险增加。a-FRS在测试集中的AUC为0.668,预测效能低于Stacking集成机器学习模型。结论:本研究构建的Stacking集成机器学习模型能够预测胰十二指肠切除术后CR-POPF的发生,有潜力成为胰十二指肠切除术后个性化诊疗的有效工具。
...不再出现此类内容
编辑人员丨6天前
-
子宫内膜异位症患者新鲜胚胎移植临床妊娠率预测模型的建立与验证
编辑人员丨1个月前
目的 构建并验证子宫内膜异位症(EMs)患者辅助生殖治疗(ART)中新鲜胚胎移植的临床妊娠率预测模型.方法 选取2017年5月~2023年11月在本院生殖医学中心进行ART治疗的464例子宫内膜异位症不孕患者,并将其分为建模人群(60%)和验证人群(40%).采用单因素分析、多因素Logistic回归分析、LASSO回归分析EMs患者新鲜胚胎移植妊娠率的相关因素,并建立预测EMs患者新鲜胚胎移植临床妊娠率的列线图模型.采用ROC的曲线下面积(AUC)、校准曲线和决策曲线分别在建模人群和验证人群对预测模型进行验证.为提高模型性能,本研究采用Stacking集成学习方法集成GBM、XGBOOST、MLP 3种机器学习方法,利用它们各自优势相互补充以提高模型预测性能.结果 女性年龄、Gn启动用量、ART次数、移植胚胎数是影响新鲜胚胎移植临床妊娠率的独立因素(P<0.05).通过LASSO模型筛选纳入变量:女性年龄、FSH、Gn时间、Gn启动用量、ART次数、获卵数、移植胚胎数、HCG日内膜厚度、HCG日P.训练集中,模型准确性为0.642(95%CI:0.605-0.679),测试集中,模型准确性为0.652(95%CI:0.600-0.704).集成学习方法可以提高模型的性能:训练集中,模型准确性为0.725(95%CI:0.680-0.770),测试集中,模型准确性为0.718(95%CI:0.675-0.761).结论 本研究所建立预测模型有助于预测子宫内膜异位症患者新鲜胚胎移植的临床妊娠率,为子宫内膜异位症ART治疗提供指导意见.
...不再出现此类内容
编辑人员丨1个月前
-
基于MRI的腰痛功能障碍自动评估方法研究
编辑人员丨2024/3/16
基于腰痛患者的MRI,通过图像预处理,提取能够反映腰痛患者功能障碍的MRI影像特征,并结合机器学习方法,提出了一种基于算法多样性的stacking模型集成算法,为腰痛患者的肢体功能障碍精准评估提供可靠方法和实现手段.
...不再出现此类内容
编辑人员丨2024/3/16
-
基于Borderline-SMOTE算法与Stacking集成学习的前列腺肿瘤风险预测研究
编辑人员丨2023/9/16
目的:应用数据挖掘方法,建立高准确率的组合模型,对前列腺肿瘤患者的风险进行预测,为前列腺癌(prostate cancer,PCa)的预防和诊断提供参考.方法:选择在临床医学科学数据中心(301医院)进行前列腺穿刺活检的患者682例,运用互信息作为评价标准筛选出与PCa有关的特征属性;针对机器学习的XgBoost、Logistic回归、Adaboost、K近邻和随机森林算法构建单一模型,应用5折交叉验证算法筛选出预测能力较优的3种模型;使用过采样处理,构建基于Borderline-SMOTE的单一模型及构建基于Borderline-SMOTE的Stacking组合模型并探究不同组合方式的影响;最后选择301医院与芜湖弋矶山医院的37例临床病例作为外部验证集对模型进行检验.结果:通过互信息筛选出19个关键特征属性;在单一模型的研究中发现随机森林模型、XgBoost模型以及AdaBoost模型这3种模型表现较优;而基于Borderline-SMOTE的单一模型使得标签属性趋于平衡,AUC值有大幅提升;构建的3种基于Borderline-SMOTE的Stacking组合模型中以XgBoost、随机森林为初级分类器,AdaBoost为次级分类器的组合模型预测能力最好,其准确率为0.945 4,召回率为0.937 5,精确度为0.957 3,F1分数为0.947 0,AUC高达0.982 3,并且该组合模型在临床验证集上的预测也有较好效果.结论:Borderline-SMOTE过采样处理不平衡数据集十分有效,相较于单一模型的预测,基于多模型融合的Stacking集成学习方式的PCa风险预测方法有着更高的预测精度和良好的推广性能,更有助于PCa的临床诊断.
...不再出现此类内容
编辑人员丨2023/9/16
-
基于集成学习的骨质疏松性骨折预测研究
编辑人员丨2023/8/5
骨质疏松性骨折是老年人发病和死亡的重要原因之一,建立高效的预测模型为老年人尽早提供诊断和治疗建议十分必要.实验利用Stacking构建了一种异构分类器EtDtb-S,将16个相关性较高的特征作为特征向量,选用极端随机树(ET)、基于决策树的装袋集成模型(DTB)作为初级学习器,逻辑回归作为次级学习器进行集成.实验验证将EtDtb-S与单模型、同构分类器进行骨质疏松性骨折预测对比,结果表明异构分类器相对于最优单模型预测精度提高2.8%,相对于最优同构分类器预测精度提高1.5%,具有更高的预测性能.
...不再出现此类内容
编辑人员丨2023/8/5
-
SPNG+:基于stacking集成策略预测革兰氏阳性菌非经典分泌蛋白质
编辑人员丨2023/8/5
革兰氏阳性菌通过分泌毒力因子入侵宿主细胞引起化脓性炎症,进而导致疾病的产生,威胁人类健康.识别分泌蛋白有助于了解细菌分泌系统和致病机理,并为进一步筛选出毒力因子奠定基础.由于非经典分泌蛋白质缺乏经典信号肽序列,大规模实验鉴定此类蛋白质相对困难并且耗时耗力.目前,虽相继提出了一些计算预测方法,但它们对革兰氏阳性菌非经典分泌蛋白质的预测性能并不令人满意.本文提出了 一个集成学习模型——SPNG+(Stacking ensemble method to Pre-dict Non-classical secreted proteins in Gram-positive bacteria),该模型通过 stacking 策略融合朴素贝叶斯、随机森林、支持向量机、两个梯度提升树XGBoost和LightGBM以及K近邻算法.五折交叉验证和独立数据集测试结果表明,此集成模型在预测革兰氏阳性菌非经典分泌蛋白质时综合性能优于单一模型、简单的集成学习模型和已有的预测工具.相较过去仅用有限的特征编码方法,或者单一机器学习算法进行构建的预测器,本文提出的方法是对革兰氏阳性细菌中非经典分泌蛋白质研究的有益补充.SPNG+的源代码可以通过https://github.com/weidai00/SPNG获得.
...不再出现此类内容
编辑人员丨2023/8/5
-
基于多层次集成学习的骨质疏松辅助诊断研究
编辑人员丨2023/8/5
目的 原发性骨质疏松是一种起病隐匿、病程较长,在中老年人中高发的疾病,其可引起包括骨折在内的一系列严重症状,是我国中老年人致残致死的主要原因之一.与骨质疏松相关的生理检验指标有很多,如何筛选利用这些指标为诊断服务、建立诊断模型,尚未有成熟、统一的方法.方法 利用人工智能相关技术,对临床骨质疏松患者指标使用多种特征相关性算法进行特征选择,并在此基础上提出了一种多层次的集成学习框架:SAB-SVMKNN算法,其通过将内部同质学习器集成和外部异质学习器集成结合,将集成学习中的Boosting算法和Bagging算法使用Stacking进行集成,构建性能更强,适应性更好地诊断预测模型.结果 使用特征选择从原始数据中的31项临床指标中筛选了对于骨质疏松最重要的8种相关特征,通过这种方式使各模型准确率平均提高了9.2%,且该研究对应的模型准确率提升18.6%,最终达到了94.8%的准确率.结论 特征选择对于临床诊断和骨质疏松疾病的研究具有重要意义,该研究构建的预测模型可以有助于提高医生的诊断准确率.
...不再出现此类内容
编辑人员丨2023/8/5
-
基于多组学数据的肿瘤药物敏感性预测
编辑人员丨2023/8/5
肿瘤药物敏感性预测在指导患者临床用药方面具有重要意义.本文基于癌症药物敏感性基因组学数据库(genomics of drug sensitivity in cancer,GDSC)198种药物的细胞系敏感性IC50数据,通过Stacking集成学习构建了包含基因表达、基因突变、拷贝数变异数据的多组学癌症药物敏感性预测模型.采用多种特征选择方法对基因特征进行降维,使用Stacking方法集成6种初级学习器和1种次级学习器进行建模,采用5折交叉进行模型验证.预测结果中AUC大于0.9的占比为36.4%,在0.8-0.9之间的占比为49.0%,最低AUC为0.682.基于Stacking构建的多组学预测模型较已有单组学和多组学模型的准确性和稳定性具有优势.多组学整合预测药物敏感性优于单一组学.特征基因功能注释和富集分析解析了肿瘤对sorafenib潜在的耐药机制,从生物学角度提供了模型可解释性及其应用于临床用药指导的价值.
...不再出现此类内容
编辑人员丨2023/8/5
-
Stacking集成学习算法验证动脉损伤对糖尿病早期检测的意义
编辑人员丨2023/8/5
背景:糖尿病可引起广泛的动脉结构和功能病理变化,导致动脉僵硬度增加、顺应性降低和动脉弹性降低.本研究从动脉损伤的角度,实现对尚未出现临床表现但有动脉损伤的糖尿病患者的早期检测.方法:动脉损伤会导致血管的力学参数发生变化,而脉搏信号的波形变化与心血管系统的力学参数变化密切相关.通过9级小波对糖尿病患者脉搏信号进行分解,提取cD8、cD7、cD6系数(中高频成分,代表信号细节特征),作为能够反映动脉损伤程度的特征,将特征矩阵输入到10折交叉验证模型的Stacking集成学习模型中,设置第一层的4个基学习器为SVM、Random Forest、XGBoost、Extra Trees,第二层的元学习器是KNN.结果:单个机器学习模型可以达到90%以上的准确率.Stacking集成学习算法的准确率比单一机器学习模型高4%~5%,ROC曲线下面积提高1%~6%.结论:小波分解得到的脉搏信号cD8、cD7、cD6系数可以有效反映糖尿病引起的动脉损伤程度,因此动脉损伤对糖尿病的早期检测具有一定的指导意义.Stacking集成学习算法将多个模型的优势结合起来生成一个新模型,可以获得比单一模型更好的性能.
...不再出现此类内容
编辑人员丨2023/8/5
-
基于1D CNN—BiLSTM网络联合集成学习的心律失常智能诊断系统
编辑人员丨2023/8/5
为提高心律失常智能诊断的准确率,本研究提出了一种多网络融合模型和Stacking集成学习算法,用于八种心律失常疾病的智能诊断.使用1 D CNN—BiLSTM融合网络提取单导联信号的高维特征和时域相关性特征,将十二个导联的心电信号特征融合,得到高维的特征张量,采用Stacking集成学习算法训练得到泛化性更好的诊断模型.通过比较准确性、精确性、召回率、F1-Score四个诊断性能指标,验证了利用十二导联融合特征作为最终诊断特征,准确率有显著提升,且Stacking集成学习算法较单一机器学习算法有更好的性能.本研究通过将机器学习、神经网络、集成学习算法有效结合,训练得到的心律失常智能诊断模型有较高的准确率,为基于心电信号的心律失常智能诊断提供了一种新方法.
...不再出现此类内容
编辑人员丨2023/8/5
