目的:基于《药物不良反应杂志》病例报告数据集,探索语义信息检索(语义检索)的应用价值。方法:本研究所用数据集由《药物不良反应杂志》1999至2022年发表的共计2 597篇病例报告的PDF文件构成。语义检索系统基于百度飞浆(PaddlePaddle)的深度学习框架搭建,代码用Python语言书写,文本编码模型为百度RocketQA模型。采用排名前k位文档的精确率(P@k)、召回率(R@k)、平均排序倒数(MRR)、平均精度均值(MAP)及精确率-召回率(P-R)曲线对语义检索的效果进行评价。本研究通过计算语义检索和关键词匹配检索的召回率,对2种方式的检索效果进行比较。结果:预处理后题目字段作为待检索对象(item)的集合包含2 597个文档;去重整理后检索词(query)的集合包含药品名称1 388条,不良反应/事件1 118条。以药品名称和不良反应/事件为检索词进行语义检索的精确率分别为0.667~1和0.566~1,召回率分别为0.667~0.871和0.566~0.863;采用药品名称和不良反应/事件检索词进行语义检索结果中排名前1、3、5和10文档的P-R曲线显示,随着召回率的升高,排名前1、3的精确率下降趋势较缓,排名前5、10的精确率下降趋势明显。2类检索词的MRR分别为0.854和0.871,MAP分别为0.778和0.773。以不良反应/事件为检索词,语义
作者:肖雅艺;雷毅;王欣;白向荣;张青霞;费晓璐
来源:药物不良反应杂志 2024 年 26卷 3期