-
阿尔茨海默病双硫死亡诊断模型的构建与评估
编辑人员丨1天前
目的 通过机器学习建立并验证阿尔茨海默病(Alzheimer's disease,AD)发病机制中双硫死亡相关基因的表达模式和诊断性生物标志物.方法 从GEO数据库下载GSE33000作为训练数据集,提取双硫死亡相关基因进行分析.通过免疫浸润和GSVA富集分析,比较AD患者和健康对照之间的差异表达基因在不同免疫细胞中的表达情况及其生物学功能.利用共识聚类方法将AD患者分为两个亚组,并对AD组与健康对照组及AD分型亚组进行加权基因共表达网络分析(WGCNA),将两个结果的交集基因作为AD特征基因.通过随机森林模型(RF)和支持向量机模型(SVM)、极限梯度提升算法(XGB)模型和广义线性模型(GLM)构建训练模型,筛选出最相关的5个基因作为诊断性标志物,并在GSE122063数据集中进行验证.结果 在文献中已证实的24个双硫死亡相关基因中,有22个基因在AD发病过程中显著差异表达.免疫浸润分析发现浆细胞、CD8+T细胞、单核细胞可能在双硫死亡调控AD中发挥重要作用.GSVA富集分析结果表明:对比于C1亚组,C2亚组中双硫死亡相关差异表达基因在亨廷顿病、帕金森病和阿尔茨海默病中上调.通过共识聚类方法将AD基因分为两个亚组(C1和C2),通过WGCNA识别显著模块并将结果取交集后获得63个AD特征性基因.训练模型结果显示,SVM模型的残差分布最低,ROC曲线下面积(AUC)值最高(0.946).SVM模型筛选的前5个AD特征基因为PARP10、MAP2K1、PTBP1、PAK1和NMS,并基于此建立AD诊断风险评估列线图.决策曲线和校正曲线分析结果显示该模型预测准确度良好.在GSE122063外部数据集中验证模型准确性,ROC结果显示AUC值为0.788,模型构建成功.结论 双硫死亡在AD的发生和诊断中起重要作用,未来可根据双硫死亡相关基因预测并筛选具有潜在治疗AD作用的药物.
...不再出现此类内容
编辑人员丨1天前
-
伴右向左分流隐源性卒中患者发病风险预测模型研究
编辑人员丨1天前
目的:利用机器学习预测右向左分流(right-to-left shunt,RLS)人群隐源性卒中(cryptogenic stroke,CS)发病风险,为CS的准确和高效预测提供解决方案。方法:回顾分析2018年1月至2023年9月在青岛大学附属医院崂山院区神经内科治疗的经颅多普勒超声发泡试验(c-TCD)阳性的289例RLS人群的临床数据,包括人口统计学信息、疾病史、实验室检查指标、诊断和治疗等。使用机器学习train_test_split()函数将数据集随机分为训练集和测试集,比例为8∶2。采用Logistic回归、决策树、随机森林、极端梯度提升、人工神经网络、梯度提升、极限树和自适应增强等算法构建RLS人群CS风险预测模型,使用受试者工作特征曲线(receiver operating characteristic,ROC)及曲线下面积(area under curve,AUC)、混淆矩阵、精确率、召回率、准确率、F1值、校准曲线、决策曲线等综合评估模型性能。性能最优的模型使用特征重要性和SHAP值进行可解释性分析。使用SPSS 25.0进行 t检验、Mann-Whitney U检验和 χ2检验。采用Delong检验比较两模型间AUC的差异。 结果:289例RLS人群发生CS 166例(57.5%),非CS 123例(42.5%)。统计分析结果显示,CS患者D-二聚体、平均血小板体积、纤维蛋白原等血液生化指标高于非CS患者(均 P<0.01);训练集与测试集各变量均差异无统计学意义(均 P>0.05)。对测试集进行CS风险预测,随机森林模型取得了最高的AUC(0.885)、精确率(0.806)、召回率(0.879)、准确率(0.810)以及F1得分(0.841)。校准曲线显示随机森林模型最接近参考线,决策曲线表明随机森林模型具有更大的净受益。可解释性分析显示高风险因素包括平均血小板体积、D-二聚体、国际标准化比值、体质量指数以及年龄。 结论:基于随机森林的预测工具表现出色,在预测RLS人群CS风险方面准确性较高。
...不再出现此类内容
编辑人员丨1天前
-
用机器学习算法建立IgA肾病与非IgA肾病的鉴别诊断模型
编辑人员丨1天前
目的:用机器学习算法建立IgA肾病与非IgA肾病鉴别诊断模型。方法:采用回顾性研究的方法,收集2019至2020年昆明医科大学第一附属医院、云南省第一人民医院和昆明市延安医院肾脏内科经肾脏病理确诊的患者共260例,其中原发性IgA肾病130例,非IgA肾病130例。收集包括性别和年龄等在内的28项临床资料和实验室常规检测结果,IgA肾病组与非IgA肾病组的男女构成比分别为59∶71和 64∶66,年龄分别为37.20(21.89,53.78)、43.30(27.77,59.18)岁。将260例患者随机地分为训练集(70%,182例)和测试集(30%,78例)。分别使用决策树、随机森林、支持向量机、极限梯度提升算法建立原发性IgA肾病与非IgA肾病的鉴别诊断模型。以真阳性率、真阴性率、假阳性率、假阴性率、准确率、受试者特征工作曲线下面积(AUC)、精确率、召回率和F1评分综合评估各模型的效能并选择性能最佳的模型。采用 SPSS 25.0对数据进行分析, P<0.05为差异有统计学意义。 结果:采用决策树、支持向量机、随机森林和极限梯度提升算法建立鉴别诊断模型的准确度分别为67.95%、70.51%、80.77%和83.33%;AUC值分别0.74、0.76、0.80和0.83;判断为原发性IgA肾病的F1评分分别为0.73、0.72、0.80和0.83。综合以上评价指标极限梯度提升算法模型的效能最高,该模型诊断为IgA肾病的敏感度、特异度分别为89%、79%,其变量重要性由高到低分别为血白蛋白、IgA/C3、血肌酐、年龄、尿总蛋白、尿白蛋比、高密度脂蛋白、尿素。结论:成功建立IgA肾病与非IgA肾病的鉴别诊断模型。采用极限梯度提升算法建立的模型临床性能最佳。
...不再出现此类内容
编辑人员丨1天前
-
9种机器学习模型预测幕上深部自发性脑出血早期血肿扩张及预后不良的比较
编辑人员丨1天前
目的:比较9种机器学习模型对幕上深部自发性脑出血(SICH)患者发生早期血肿扩张及预后不良情况的预测性能。方法:回顾性研究。纳入2015年1月—2019年5月4家医院幕上深部SICH患者420例。其中男275例、女145例,年龄25~90(61.0±12.9)岁。420例患者按照7∶3的比例,采用完全随机法分为训练集294例和验证集126例。患者在72 h内复查CT,若血肿体积比初始体积增长>6 mL或>33%,判定存在早期血肿扩张。采用改良的Rankin评分量表(mRS)评估预后,以mRS>3分判定为预后不良。比较训练集和验证集的基线资料。采用随机森林、极限梯度提升算法(XGboost)、梯度爬升决策树、自适应提升算法、朴素贝叶斯、logistic回归、支持向量机、K近邻、多层感知机9种机器学习算法对早期血肿扩张及预后不良分别构建预测模型;在训练集中,依据各模型的灵敏度和特异度绘制受试者操作特征曲线,采用3折交叉验证取曲线下面积(AUC),比较各模型对早期血肿扩张及预后不良情况的预测性能,并在验证集测试模型的可靠性。结果:训练集和验证集患者基线资料比较差异均无统计学意义( P值均>0.05)。420例患者中,早期脑血肿扩张的患者有117例(27.86%);399例患者获随访,其中预后不良的患者有210例(52.63%)。预测早期血肿扩张:训练集中,9种机器学习模型的AUC为0.590~0.685,其中以XGboost模型最高,AUC为0.685±0.024;在验证集中,XGboost模型AUC为0.686[95%可信区间( CI)0.578~0.721]。预测预后不良:9种机器学习模型的AUC为0.703~0.852,其中logistic回归模型最高,AUC为0.852±0.041;而在验证集中,logistic回归模型AUC为0.894(95% CI 0.862~0.912)。 结论:9种机器学习算法模型中,XGboost对幕上深部SICH早期血肿扩张的预测性能最佳,而logistic回归模型对预后不良的预测性能最高;对于不同临床结局的预测,应选用合适的机器学习模型。
...不再出现此类内容
编辑人员丨1天前
-
机器学习和Logistic回归模型预测心脏外科术后患者发生急性肾损伤的比较分析
编辑人员丨1天前
目的:使用机器学习中极限梯度提升(XGBoost)算法构建心脏外科术后患者发生急性肾损伤(AKI)的风险预测模型,探讨心脏外科术后患者发生AKI的危险因素和保护因素。方法:纳入美国重症监护医学信息数据库Ⅲ(MIMIC-Ⅲ)中全部接受心脏外科手术患者的临床资料,按术后14 d内是否发生AKI分为AKI组和非AKI组,并比较两组患者的临床特征。在五折交叉验证的基础上,分别采用XGBoost和Logistic回归法建立心脏外科术后AKI预测模型,并比较两种模型的受试者工作特征曲线下面积(AUC)。采用沙普利加和解释法(SHAP)解释XGBoost的输出模型。结果:共纳入6 912例心脏外科术后患者,其中5 681例(82.2%)在术后14 d内发生AKI,1 231例(17.8%)未发生AKI。与非AKI组相比,AKI组患者年龄更大〔岁:68.0(59.0,76.0)比62.0(52.0,71.0)〕,急诊入院及合并肥胖、糖尿病比例更高(52.4%比47.8%,9.0%比4.0%,32.0%比22.2%),生命体征指标中呼吸频率(RR)更低〔次/min:17.0(14.0,20.0)比19.0(15.0,22.0)〕,心率(HR)更慢〔次/min:80.0(67.0,89.0)比82.0(71.5,93.0)〕,血压更高〔mmHg(1 mmHg≈0.133 kPa):80.0(70.7,90.0)比78.0(70.0,88.0)〕,实验室指标中血红蛋白(Hb)、血糖、血K +、血肌酐(SCr)更高〔Hb(g/L):122.0(109.0,136.0)比120.0(106.0,135.0),血糖(mmol/L):7.3(6.1,8.9)比6.8(5.7,8.5),血K +(mmol/L):4.2(3.9,4.7)比4.2(3.8,4.6),SCr(μmol/L):88.4(70.7,106.1)比79.6(70.7,97.2)〕,白蛋白(ALB)和三酰甘油(TG)更低〔ALB(g/L):38.0(35.0,41.0)比39.0(37.0,42.0),TG(mmol/L):1.4(1.0,2.0)比1.5(1.0,2.2)〕,且多器官功能障碍综合征(MODS)和脓毒症比例更高(30.6%比16.2%,3.3%比1.9%),差异均有统计学意义(均 P<0.05)。Logistic回归预测模型中的主要影响因素包括血乳酸〔Lac;优势比( OR)=1.062,95%可信区间(95% CI)为1.030~1.100, P=0.050〕、肥胖( OR=2.234,95% CI为1.900~2.640, P<0.001)、男性( OR=0.858,95% CI为0.794~0.928, P=0.049)、伴有糖尿病( OR=1.820,95% CI为1.680~1.980, P<0.001)和急诊入院( OR=1.278,95% CI为1.190~1.380, P<0.001)。受试者工作特征曲线(ROC曲线)分析显示,Logistic回归模型预测心脏外科术后发生AKI的AUC为0.62(95% CI为0.61~0.67)。经过网格搜索与五折交叉验证结合优化XGBoost模型参数,模型训练效果良好,没有出现过拟合或欠拟合。ROC曲线分析结果显示,XGBoost模型预测心脏外科术后发生AKI的AUC为0.77(95% CI为0.75~0.80),明显高于Logistic回归预测模型的AUC( P<0.01)。经SHAP方法处理后,XGBoost输出模型中对最终结果最重要的预测因素是年龄和ALB,其中年龄是危险因素(平均| SHAP值|为0.434),ALB是保护因素(平均| SHAP值|为0.221)。 结论:年龄是心脏外科术后患者发生AKI的重要危险因素,而ALB则是保护因素。机器学习预测心脏外科术后AKI的效能比传统Logistic回归更加优秀,能分析变量与结局间更复杂的关系,更精准地个体化预测术后AKI的发生风险。
...不再出现此类内容
编辑人员丨1天前
-
基于肺部超声影像组学分析联合机器学习评估重症患者血管外肺水指数
编辑人员丨1天前
目的:探讨与血管外肺水指数(EVLWI)相关的肺部超声影像组学特征,采用基于肺部超声的影像组学方法联合机器学习预测重症患者的EVLWI并进行效能验证。方法:采用回顾性病例对照研究方法,收集2021年11月至2022年10月广西医科大学第一附属医院重症医学科收治的重症患者肺部超声视频和脉搏指示连续心排血量(PiCCO)监测结果,按照8∶2的比例随机分为训练集与验证集。从肺部超声视频取帧得到对应图像并提取影像组学特征,以PiCCO测得的EVLWI为"金标准",通过统计分析和LASSO算法对训练集影像组学特征进行筛选。采用经过筛选的影像组学特征训练8种机器学习模型,包括随机森林(RF)、极限梯度提升(XGBoost)、决策树(DT)、朴素贝叶斯(NB)、多层感知器(MLP)、K-近邻(KNN)、支持向量机(SVM)和Logistic回归(LR);绘制受试者工作特征曲线(ROC曲线),评估上述模型在验证集中对EVLWI的预测效能。结果:最终共30例患者151组样本(包括906份肺部超声视频和151份PiCCO监测结果)纳入分析,其中训练集120组样本,验证集31组样本;两项数据集的性别、年龄、体质量指数(BMI)、平均动脉压(MAP)、中心静脉压(CVP)、心率(HR)、心排血指数(CI)、心功能指数(CFI)、每搏量指数(SVI)、全心舒张期末容积指数(GEDVI)、全身血管阻力指数(SVRI)、肺血管通透性指数(PVPI)、EVLWI等主要基线资料差异均无统计学意义。151份PiCCO监测结果中整体EVLWI范围为3.7~25.6 mL/kg;分层分析显示,两项数据集EVLWI均集中于7~15 mL/kg区间,EVLWI分布差异无统计学意义。通过LASSO算法筛选出2个影像组学特征,即灰阶不均匀性(权重为-0.006?464)和复杂度(权重为-0.167?583),并用于建模;ROC曲线分析显示,MLP模型具有较好的预测效能,其预测验证集EVLWI的ROC曲线下面积(AUC)高于RF、XGBoost、DT、KNN、LR、SVM、NB模型(0.682比0.658、0.657、0.614、0.608、0.596、0.557、0.472)。结论:肺部超声灰阶不均匀性和复杂度是与PiCCO测得的EVLWI相关性最高的影像组学特征;基于肺部超声灰阶不均匀性和复杂度构建的MLP模型可用于半定量预测重症患者EVLWI。
...不再出现此类内容
编辑人员丨1天前
-
基于检验大数据的结直肠癌风险预测模型建立与验证
编辑人员丨1天前
目的:通过机器学习算法挖掘常规检验大数据构建结直肠癌(CRC)风险预测模型。方法:收集长海医院2013年1月1日至2019年6月30日结肠镜检查者,收集2010年1月1日至2019年6月30日全院门诊和住院患者,根据肠镜联合病理结果标注或参照ICD-10编码,分别纳入CRC组和非CRC组。采用极限梯度提升(Xgboost)、人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)4种机器学习算法挖掘入组患者的所有常规检验项目数据,选择模型特征并建立CRC的分类模型。在2019年7月1日至2020年8月31日长海医院所有就诊者对模型效能进行前瞻性验证,并验证模型对<50岁患者及粪隐血阴性患者CRC鉴别能力。结果:采用XgBoost算法构建了包含粪隐血,癌胚抗原、红细胞分布宽度、淋巴细胞计数、白蛋白/球蛋白、高密度脂蛋白胆固醇和乙型肝炎病毒核心抗体7个特征的CRC风险预测模型CRC-Lab7。模型在验证集与前瞻性验证集的曲线下面积(AUC)分别为0.799和0.816,明显高于粪隐血(AUC为0.68和0.706)。CRC-Lab7对50岁以下及粪隐血阴性的CRC也具有较高的诊断准确性(AUC分别为0.84和0.69)。结论:本研究通过挖掘常规检验大数据建立了CRC风险预测模型,模型效能优于粪隐血,且对粪隐血阴性及小于50岁人群的CRC具有较高的诊断准确性。
...不再出现此类内容
编辑人员丨1天前
-
预测浆液性卵巢癌术后复发远处转移风险机器学习模型的构建
编辑人员丨1天前
目的:利用常规临床数据开发浆液性卵巢癌(SOC)术后复发远处转移风险机器学习预测模型。方法:收集2010年1月至2020年12月在云南省肿瘤医院行手术治疗后复发的687例SOC患者为研究对象。根据复发状态将患者分为远处转移组( n=105)及非远处转移组( n=582)。采用logistic回归筛选SOC远处转移相关变量,运用K最近邻(KNN)、逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)和极限梯度提升(XGBoost)5种机器学习算法开发SOC术后复发远处转移风险预测模型。在模型验证方面,采用十折交叉验证方法进行内部验证。模型的性能使用受试者工作特征曲线评估。 结果:远处转移组与非远处转移组患者国际妇产科联盟(FIGO)分期( Z=-3.81, P<0.001)、围手术期化疗周期( t=-5.11, P<0.001)、淋巴结转移( χ2=5.98, P=0.014)、腹腔积液细胞学( Z=-2.22, P=0.026)、新辅助化疗( χ2=5.29, P=0.021)差异均具有统计学意义。多因素分析结果显示,FIGO分期( OR=1.54,95% CI为1.07~2.22, P=0.019)和围手术期化疗周期( OR=1.22,95% CI为0.09~0.36, P<0.001)是SOC术后复发时发生远处转移的独立影响因素。腹腔积液细胞学( OR=1.20,95% CI为0.71~1.89, P=0.180)不是SOC远处转移的独立影响因素,结合文献观点将其纳入后可提高模型的曲线下面积(AUC),最终将其纳入模型的构建。基于上述3个变量构建的5个机器学习模型中,基于KNN构建的模型识别SOC远处转移的性能最佳,AUC为0.750、敏感性为0.591、特异性为0.786、准确率为85.0%;LR模型的AUC为0.679、敏感性为0.545、特异性为0.765、准确率为84.3%;SVM模型的AUC为0.634、敏感性0.240、特异性为0.968、准确率为84.7%;RF模型的AUC为0.575、敏感性0.905、特异性为0.245、准确率为84.7%;XGBoost模型的AUC为0.704、敏感性0.567、特异性为0.745、准确率为84.9%。 结论:FIGO分期、围手术期化疗周期为SOC术后发生远处转移的独立影响因素;基于FIGO分期、围手术期化疗周期及腹腔积液细胞学构建的KNN模型预测SOC术后复发远处转移具有较高的区分度与准确率。
...不再出现此类内容
编辑人员丨1天前
-
基于机器学习算法评估七种肿瘤相关自身抗体在非小细胞肺癌中的应用价值
编辑人员丨1天前
目的:以机器学习算法建立并验证的诊断模型为依据,探讨7种肿瘤相关自身抗体(TAABs),即抗p53、PGP9.5、SOX2、GAGE7、GBU4-5、MAGEA1和CAGE抗体,在非小细胞肺癌(NSCLC)诊断及其与良性肺结节鉴别诊断中的应用价值。方法:本研究为临床病例回顾性研究。模型建立队列来自2018年11月至2021年6月于中国医科大学附属盛京医院胸外科进行肺癌根治术的227例初治NSCLC患者为NSCLC组,同时选择良性肺结节120例、肺炎122例及健康者120名作为对照组;外部验证队列来自2022年5月至12月,中国医科大学附属盛京医院胸外科行肺癌根治术的100例初治NSCLC患者为NSCLC组,同时选择良性肺结节36例、肺炎32例及健康者44名作为对照组。将NSCLC分成早期(0~ⅠB期)与中晚期(ⅡA~ⅢB期)亚组。采用酶联免疫法检测7种TAABs,电化学发光法检测癌胚抗原(CEA)和细胞角蛋白19片段(CYFRA21-1)在各组之间的血清浓度。采用4种机器学习算法,包括极限梯度提升(XGBoost)、Lasso逻辑回归(LR)、朴素贝叶斯(NB)、以及支持向量机(SVM)分别建立多指标联合检测模型,并选择XGBoost作为最佳算法建立了针对临床应用的患者在线风险评估工具。结果:除抗p53抗体外,其余6种TAABs及CEA、CYFRA21-1在NSCLC中血清浓度显著升高( P<0.05);中晚期NSCLC患者血清抗SOX2[1.50(0.60,10.85)U/ml vs.0.8(0.20,2.10)U/ml, Z=2.630, P<0.05]和MAGEA1抗体[0.20(0.10,0.43)U/ml vs. 0.10(0.10,0.20)U/ml, Z=2.289, P<0.05]及CEA[3.13(2.12,5.64)ng/ml vs. 2.11(1.25,3.09)ng/ml, Z=3.970, P<0.05]和CYFRA21-1[4.31(2.37,7.14)ng/ml vs. 2.53(1.92,3.48)ng/ml, Z=3.959, P<0.05]浓度显著高于早期。采用机器学习算法XGBoost建立多指标联合检测模型(剔除p53后),6-TAABs联合CYFRA21-1均为诊断NSCLC及NSCLC早期的最佳组合模型,诊断最佳界值分别为0.410、0.701、0.744,AUC分别为0.828、0.757、0.741(NSCLC vs. 对照组,NSCLC vs. 良性肺结节组,早期NSCLC vs. 良性肺结节组)。模型的外部验证队列的AUC分别为0.760、0.710、0.660(NSCLC vs. 对照组,NSCLC vs. 良性肺结节组,早期NSCLC vs. 良性肺结节组)。 结论:在NSCLC诊断中,6-TAABs诊断效能优于传统肿瘤标志物CEA和CYFRA21-1;6-TAABs+CYFRA21-1检测模型为诊断NSCLC最优的模型,其可有效地辅助临床用于NSCLC及NSCLC早期与良性肺结节的鉴别诊断,在肺癌预防和早期筛查中发挥重要作用。
...不再出现此类内容
编辑人员丨1天前
-
XGBoost-SHAP机器学习可解释框架用于轻度认知障碍分类研究
编辑人员丨2024/8/17
目的 利用机器学习算法对轻度认知障碍(mild cognitive impairment,MCI)亚型分类有利于患者的个性化治疗,而复杂模型常因分类过程的内部机制不可洞察而饱受诟病,本研究借助可解释技术梳理模型的输出结果,以期为相关领域研究者的决策提供统计支持.方法 本研究联合极限梯度提升(eXtreme Gradient Boosting,XGBoost)与沙普利可加性(SHapley Additive exPlanations,SHAP)构建可解释性框架,用于遗忘型MCI(amnestic MCI,aMCI)和非遗忘型MCI(non-amnestic naMCI)的分类,并根据联合框架输出结果进行解读.结果 联合框架输出aMCI和naMCI的最佳分界值为 0.51,XGBoost分类准确率、灵敏度、特异度、F1 值、AUC分别为 92.81%、94.94%、90.54%、0.93、0.96.SHAP个性化预测结果,7 号和 31 号示例个体被预测为aMCI的概率分别为 0.27 和0.91;全局性解释结果,不同个体随着CEREALL、O-RIENT、CDRSUM、LCMF、RSUPMAR、RMEDORBF、LPOSCENM等指标的shapley值增大,患aMCI的风险越大,上述指标可以解释为aMCI发生的危险因素,而RENT、MMSEORDA、CRAFTVRS等则相反,可以解释为aMCI发生的保护因素.结论 XGBoost-SHAP联合框架用于MCI亚型分类效果较为理想,实现了特定个体不同特征预测效果的比较、不同个体给定特征预测能力的判断,为相关研究者打开了洞察复杂模型内在机制的大门.
...不再出现此类内容
编辑人员丨2024/8/17
