-
基于加权软投票融合模型的脉象信号识别研究
编辑人员丨2024/2/3
目的 脉象识别是中医客观化、智能化的重要组成部分,这种无创、快速的诊断方法具有巨大的临床价值,然而数据不平衡和特征提取繁杂仍是具有挑战性的问题.方法 利用tsfresh库对巴特沃兹带通滤波器后的一维脉象信号提取特征向量,并加入探索性数据分析所选出的9列医学辅助特征,共同进行特征筛选得出21列特征向量作为加权软投票融合模型的输入.通过边界合成少数类样本过采样技术,解决数据不平衡问题,构建基于XGBoost、随机森林、LightGBM、梯度提升决策树4种机器学习的加权软投票融合模型,最终模型将输出具体脉象类别,通过评价指标准确率、精确率、召回率和F1分数进行性能展示.结果 实验结果表明,所筛选出的21项特征向量共六类脉象信号测试集,在五折交叉验证中取得准确率90.04%,且仅耗时65.9466 s.结论 本论文能为脉象信号识别提供更精准、更智能的辅助参考,与常用脉象识别方法相比有更低的操作复杂性和更高的准确率,较短的训练时间也使其在多种类脉象信号识别中更具临床实用价值.
...不再出现此类内容
编辑人员丨2024/2/3
-
基于改进Borderline-Smote-GBDT的冠心病预测
编辑人员丨2023/11/25
针对样本不平衡问题,提出一种基于欧氏距离改进的Borderline-Smote过采样算法.首先根据欧式距离判断少数类样本类别;然后根据边界上的少数类样本的k近邻数据找出线性直线,由同侧近邻数据判别是否为噪音;最后重新判别删除噪音的剩余少数类样本的类别,对边界少数类样本和密集的非边界区域的少数类样本过采样合成新样本.等磁场图和二维电流密度图中提取的心磁特征数据集经过改进Borderline-Smote过采样处理,结果表明改进Borderline-Smote-GBDT冠心病预测模型相比Borderline-Smote-GBDT模型准确率提高8.4%,精确率提高2.9%,召回率提高9.1%,AUC提高4.6%.此外,与逻辑回归、随机森林、k近邻、极端随机树模型对比发现,GBDT结果最优,改进Borderline-Smote-GBDT准确率、召回率、精确率、AUC分别为91.7%、91.7%、81.8%、87.1%,验证了该模型的可行性.
...不再出现此类内容
编辑人员丨2023/11/25
-
基于Smote-KNN的小麦8种真菌毒素共污染特征气候分类模型研究
编辑人员丨2023/11/11
目的 分析我国不同气候区域小麦真菌毒素共污染特征,建立气候分类模型.方法 对来自12个省、自治区的887份小麦样本中脱氧雪腐镰刀菌烯醇、雪腐镰刀菌烯醇、黄曲霉毒素、赭曲霉毒素、伏马菌素、玉米赤霉烯酮、T-2和HT-2共8种真菌毒素检测数据按样本采集地的气候类型分为温带大陆性气候、温带季风气候和亚热带季风气候3类.对数据进行预处理并使用Borderline-SMOTE方法扩充以平衡数据集.使用主成分分析方法(PCA)对8种真菌毒素检测数据进行特征降维,选择降维后累计贡献率达97%的前二维特征作为小麦毒素数据特征.利用机器学习中的K最近邻(KNN)非线性分类器对上述数据特征进行分类研究,同时使用网格搜索算法对KNN模型参数进行调优.采用混淆矩阵、准确率、召回率和F1得分4个指标对模型进行评价,并比较所构建模型与支持向量机、随机森林和人工神经网络等常见分类模型在上述数据中的表现效果.结果 本文提出的Borderline-SMOTE、PC A与KNN相结合的分类模型对小麦8种真菌毒素共污染特征的气候分类准确率可达98.31%,且方法性能优于其他分类方法.结论 本文建立的分类模型能有效判别我国3种气候条件下小麦8种真菌毒素的共污染特征,可为分地区的真菌毒素联合暴露风险评估提供依据,并提出了 一种基于食品多项检测指标进行地区分类的方法.
...不再出现此类内容
编辑人员丨2023/11/11
-
基于Borderline-SMOTE算法与Stacking集成学习的前列腺肿瘤风险预测研究
编辑人员丨2023/9/16
目的:应用数据挖掘方法,建立高准确率的组合模型,对前列腺肿瘤患者的风险进行预测,为前列腺癌(prostate cancer,PCa)的预防和诊断提供参考.方法:选择在临床医学科学数据中心(301医院)进行前列腺穿刺活检的患者682例,运用互信息作为评价标准筛选出与PCa有关的特征属性;针对机器学习的XgBoost、Logistic回归、Adaboost、K近邻和随机森林算法构建单一模型,应用5折交叉验证算法筛选出预测能力较优的3种模型;使用过采样处理,构建基于Borderline-SMOTE的单一模型及构建基于Borderline-SMOTE的Stacking组合模型并探究不同组合方式的影响;最后选择301医院与芜湖弋矶山医院的37例临床病例作为外部验证集对模型进行检验.结果:通过互信息筛选出19个关键特征属性;在单一模型的研究中发现随机森林模型、XgBoost模型以及AdaBoost模型这3种模型表现较优;而基于Borderline-SMOTE的单一模型使得标签属性趋于平衡,AUC值有大幅提升;构建的3种基于Borderline-SMOTE的Stacking组合模型中以XgBoost、随机森林为初级分类器,AdaBoost为次级分类器的组合模型预测能力最好,其准确率为0.945 4,召回率为0.937 5,精确度为0.957 3,F1分数为0.947 0,AUC高达0.982 3,并且该组合模型在临床验证集上的预测也有较好效果.结论:Borderline-SMOTE过采样处理不平衡数据集十分有效,相较于单一模型的预测,基于多模型融合的Stacking集成学习方式的PCa风险预测方法有着更高的预测精度和良好的推广性能,更有助于PCa的临床诊断.
...不再出现此类内容
编辑人员丨2023/9/16
-
基于不平衡分类的乳腺肿瘤预后预测方法的研究
编辑人员丨2023/8/6
目的 探讨不平衡分类的乳腺癌数据集基于机器学习方法预测预后的生存状态.方法 乳腺肿瘤预后的生存状态数据为不平衡数据,针对不平衡数据这一问题,本文使用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select处理乳腺肿瘤生存状态的不平衡数据.然后通过经典决策树 、条件决策树 、随机森林 、支持向量机预测的准确率 、敏感度 、特异性 、正例命中率 、负例命中率来评价分类器的效果.结果 4种机器学习方法进行乳腺癌预后预测时,未经采样技术处理的原始数据集在预测准确率上均表现良好,其中支持向量机准确率最高,达90.42%.使用欠采样方法One-Sided Select技术,结合条件决策树预测,在不平衡的乳腺肿瘤数据集中预后预测效果最好,将敏感度由2% 提高到58%,提高了56%.支持向量机在预测未经处理的数据集时特异性最高,为100%.采用One-Sided Select结合支持向量机算法的正例命中率最高,为40%.采用One-Sided Select结合条件决策树的负例命中率最高,为95%.结论 对类不平衡数据预处理后可以较好的改善敏感度,通过对比发现采样技术中的One-Sided Select更适合于乳腺癌的预后模型.
...不再出现此类内容
编辑人员丨2023/8/6
-
基于Borderline-SMOTE和PFS构建非小细胞肺癌生存预测模型
编辑人员丨2023/8/6
目的 利用机器学习方法预测非小细胞肺癌(NSCLC)患者的5年生存状况,提高预测效率与预测准确性.方法 采用SEER数据库的NSCLC数据进行实验.针对患者数据存在的不平衡问题,使用Borderline-SMOTE法进行数据采样,采用基于扰动理论的特征选择(PFS)方法和决策树(DT)算法筛选特征并构建患者术后生存预测模型.结果 平衡后的数据集纳入了年龄、组织学分级、种族、发病部位、肿瘤分期、病理类型、手术类型共7项预后相关变量.与LASSO、Tree-based、PFS-SVM和PFS-kNN模型相比,使用PFS-DT构建的模型具有最优的预测效果.结论 基于PFS-DT的患者生存预测模型有效提高了NSCLC患者术后生存预测的准确率,可为医生提供治疗和改善预后方面的参考.
...不再出现此类内容
编辑人员丨2023/8/6
-
基于多核学习的弥漫大B细胞淋巴瘤早期复发的精准预测
编辑人员丨2023/8/5
目的 对山西省某三甲医院2011-2017年间血液科新诊断的弥漫大B细胞淋巴瘤患者(diffuse large B-cell lymphoma,DLBCL)是否实现两年无事件生存,即DLBLC患者早期复发的预测.方法 根据无事件生存期,将患者分成早期复发和非早期复发,并以此为标签构建分类模型.首先对数据进行了归一化处理,然后用LASSO进行了特征选择,因数据类别不平衡,分别采用了SMOTE(synthetic minority over-sampling technique)、Borderline-1 SMOTE、Borderline-2 SMOTE与ADASYN(adaptive synthetic sampling)四种方法平衡数据,之后构建了基于支持向量机的多核模型作为最终的分类器,并与AdaBoost、随机森林和以高斯核、多项式核为内核的单核支持向量机进行比较,最终实现对新诊断病例早期复发的预测.结果 在本文所有模型中,采用LASSO加Borderline-1 SMOTE的多核模型(accuracy=0.87,precision=0.87,recall=0.87,f1=0.87,AUC=0.87)取得了最优的分类性能.采用SMOTE的随机森林模型(accuracy=0.84,preci-sion=0.85,recall=0.87,f1=0.79,AUC=0.83)、Borderline-2 SMOTE的随机森林(accuracy=0.84,precision=0.85,re-call=0.87,f1=0.79,AUC=0.83)两种集成模型的分类性能也较好,但都低于多核支持向量机模型.两种单核支持向量机性能较差.结论 本文构建的所有模型中,经过LASSO和Borderline-1 SMOTE重采样的多核支持向量机性能最优,可为DLBCL早期复发预测提供参考.
...不再出现此类内容
编辑人员丨2023/8/5
