-
基于命名实体识别的《神农本草经》知识图谱构建及可视化分析
编辑人员丨1个月前
目的 构建《神农本草经》知识图谱,分析本草知识、挖掘隐性知识并进行可视化展示,为古籍研究提供方法学参考.方法 梳理并表述《神农本草经》文献涉及的知识实体类型和实体间关系,应用BIO序列标注方法生产训练语料数据集,使用自主研发的CNLP文本标注系统进行文本标注,采用BERT模型识别命名实体,基于规则与语义关联设定确定实体间关系,经知识融合后,用Cypher语言导入图数据库Neo4j-community4.4.9进行存储和可视化展示,构建知识图谱.结果《神农本草经》知识图谱包含5 273个节点、11 064个关系,其模式层包含14种实体类、16种关系类型.可通过Cypher语言查询,从中药分类、药性理论、七情配伍、中药应用方面进行知识的可视化展示.结论 本研究构建的知识图谱可直观反映《神农本草经》所载知识及隐性关系,适用于中医药古籍的知识挖掘及直观多维展示.
...不再出现此类内容
编辑人员丨1个月前
-
中文医学知识大模型问答语料数据集构建研究
编辑人员丨2024/7/6
目的/意义 构建中文医学知识问答语料数据集,为医学垂域大模型提供标准化的评测基准,进而提升大模型处理中文医学问答任务的准确率和效率.方法/过程 构建中文医学论文知识问答数据集、医学名词解释问答数据集和以中国执业医师资格考试真题为基础的问答数据集,整理相关开源数据集.结果/结论 自主构建的中文医学知识问答语料数据集丰富了中文医学问答语料来源,能够作为一项标准化的评测基准,推动医学领域大模型实现客观全面的定量评估,今后将利用电子病历、在线健康社区等数据,为健康中国战略的实施提供更坚实的人工智能支持.
...不再出现此类内容
编辑人员丨2024/7/6
-
基于HSM_LDA模型的在线医院特色挖掘研究
编辑人员丨2023/11/25
目的/意义 挖掘在线医院的医疗特色对在线医疗推荐具有重要作用.当前,虽然部分在线医院具备特色标注功能,但只能实现医院内部特色提示,无法从全局角度衡量不同医院之间的特色差异.方法/过程 提出一种基于在线医院问诊文本的医院特色识别模型(hospital special medical based LDA,HSM_LDA).该模型以医院ID为文本划分依据,将语料库中的"文本-词汇"矩阵转换成"医院-词汇"矩阵,联合建模医院、主题、词汇3个变量,生成"医院-主题"(E)和"主题-词汇"(F)两个分布.最终结合E和F两个分布识别出每个医院的医疗特色.结果/结论 以"好大夫在线"平台中的医院问诊文本作为实验数据集,运用HSM_LDA模型进行特色挖掘分析,识别精度为87%,效果良好.
...不再出现此类内容
编辑人员丨2023/11/25
-
基于语料库的医学英语写作可视化教学实践
编辑人员丨2023/8/6
[目的]探讨基于语料库的医学英语写作的思维可视化教学模式及其效果.[方法]对照班实验,通过写作测试、问卷、访谈等多种方法收集数据并对数据进行t检验分析.[结果]实验班学生在可视化教学实验之后写作水平有了明显提高,呈现显著差异(P<0.05);实验班学生的写作水平整体高于对照班,呈现显著差异(P<0.05).[结论]基于语料库的思维可视化教学模式能有效提高医学生在学术论文英语写作中的语篇建构能力、语言组织能力和逻辑思维能力.
...不再出现此类内容
编辑人员丨2023/8/6
-
基于多特征融合的中文电子病历命名实体识别
编辑人员丨2023/8/6
目的 针对某三级甲等医院电子病历中的非结构化部分(诊断和病情),建立多特征融合的条件随机场模型,自动化识别用自然语言描述的电子病历(electronic medical records,EMR)中的疾病和症状,从而实现电子病历信息的结构化存储,以利于电子病历的信息挖掘和统计分析.方法 将手动标注的语料库分为训练集和测试集,借助NLPIR工具分割文本,选择CRF++工具进行实验.针对中文电子病历的数据特点,先选取基本特征和相应的特征模板,通过不同上下文窗口的对比实验确定其大小;再分别添加引导词特征和构词结构特征,对比两种高级特征对实验结果的影响.结果 仅选取基本特征,上下文窗口为7时,识别效果最好;添加高级特征后,最终疾病实体F值为92.80%,症状实体F值为94.17%.结论 条件随机场模型融合多种有效的特征,可以很好地识别出电子病历中的疾病和症状实体.本研究对电子病历的命名实体识别有重要的意义.
...不再出现此类内容
编辑人员丨2023/8/6
-
命名性失语的汉语普通话语料库构建
编辑人员丨2023/8/6
目的:以命名性失语症为例,构建符合国际失语库标准的普通话失语症语料数据集.方法:根据国际失语库标准,采集9例命名性失语症患者自发性言语的多媒体样本,采用CLAN软件进行转录、编码和校验,并对所建立的样本数据集进行语言分析.结果:在失语库测试的整体水平,患者产生句子数96.89±22.45,耗时为709.1 ±283.78s,词类187.2±58.89个,词次563.67±286.15个,名词103±56.39个,动词99.67±44.65个.在单项语言任务水平,这些参数还支持语言任务间比较.在看图说话和命题任务中,名词和动词的产出量呈显著正相关(n=9,r=0.765,P<0.05;n=9,r=0.945,P<0.001);在命题任务中,动词的产出量与AQ值呈显著正相关(n=9,r=0.686,P< 0.05).结论:命名性失语症患者名词和动词的产出量相同,动词更能反映言语改善程度.国际失语库为汉语失语症提供了有效的语料分析工具.
...不再出现此类内容
编辑人员丨2023/8/6
-
基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别
编辑人员丨2023/8/6
目的 提出一种基于Re-entity新分词方法 的条件随机场(CRF)模型,并与双向长短记忆神经网络(BiLSTM)-CRF和Lattice-长短记忆神经网络(LSTM)进行比较.方法比较了现有实体识别方法和模型后,针对2018年全国知识图谱与语义计算大会(CCKS2018)任务一"电子病历命名实体识别",提出基于Re-entity的CRF、BiLSTM-CRF、Lattice-LSTM方法,并在不同语料库训练不同参数级别的字符向量集.分别将各方法引入神经网络模型中进行模型性能对比实验,最后分别基于句子级和篇级输入句长进行对比研究.结果 CRF模型在最优特征工程的结果下引入Re-entity方法后性能得到提高,句子级的Lattice-LSTM模型在该任务上取得了89.75% 的严格F1-measure,优于CCKS2018任务一的最高结果(89.25%).结论 基于Re-entity新分词方法的CRF模型可利用中文临床药物知识库有效提高电子病历中药物的识别率,Re-entity方法可改善数据预处理阶段分词导致的错误累加,Lattice结构可以更好地结合字符和词序列的潜在语义信息,同时句子级输入能有效提高神经网络模型的识别准确率.
...不再出现此类内容
编辑人员丨2023/8/6
-
个体主义/集体主义的代际变迁1949-2010:来自《人民日报》的证据
编辑人员丨2023/8/5
目的:考察中国1949-2010年个体主义/集体主义的代际变迁以及现代性对个体主义和集体主义代际变迁的预测作用.方法:获取1949-2010年《人民日报》语料库的个体主义/集体主义词汇词频以及客观数据指标(人均GDP,城市化率以及学校入学率),按照重大事件划分代际、每10年一代划分代际以及直接按照年份三种方法,运用方差分析、相关分析和回归分析进行数据分析.结果:(1)三种方法分析的结果基本一致,个体主义词汇总词频、第一人称代词单数以及与礼俗社会相适应的个体主义价值观词汇词频存在代际差异,呈先下降后上升趋势;集体主义词汇总词频、第一人称代词复数以及与法理社会相适应的部分集体主义价值观词汇词频存在代际差异,呈先上升后下降趋势,不过一些集体主义价值观(如“义务+责任”“付出+给予”“公家+共同”“牺牲+奉献”)词频呈上升趋势.(2)在1975年以后,随着现代性水平提升,大多数个体主义词汇词频呈上升趋势,大多数集体主义词汇词频呈下降趋势,现代性分别可以解释个体主义/集体主义词汇总词频17%和19%的变异量.结论:(1)与个体主义文化一样,在集体主义文化中,个体主义正日益增强,而传统的集体主义则变弱或者不变;(2)现代性也可以促进个体主义/集体主义文化的变迁.
...不再出现此类内容
编辑人员丨2023/8/5
-
癫痫中医症状术语规范化研究
编辑人员丨2023/8/5
目的 构建癫痫中医症状术语,为癫痫诊疗数据的挖据分析提供可参考的规范化术语.方法 本研究系统收集权威单位正式出版物,提取癫痫(痫证、痫病)诊断和症状部分,构成癫痫症状语料库,通过核心症状提取、逻辑关系保留、复合症状拆解、首选术语制定,4种方法,规范化整理癫痫症状术语.结果 本研究建立了癫痫中医症状术语120条,其中首选术语106条,同义术语14条,并建立了首选术语与同义术语之间的映射关系.结论 本研究首次提出癫痫中医症状首选术语的概念,初步形成了癫痫中医症状术语字典,通过对癫痫中医症状术语的整理,解决数据分析时一词多义、一义多词的难题,为数据挖掘分析提供术语参考依据,促进从临床数据向科研数据的转化.
...不再出现此类内容
编辑人员丨2023/8/5
-
基于医学大数据的预训练语言模型及其医学文本分类研究
编辑人员丨2023/8/5
目的:构建基于医学文本的预训练语言模型,以解决基于通用语料的预训练语言模型不适应医学文本分类的问题.方法:使用PubMed医学论文摘要数据和PMC医学论文全文数据在通用预训练语言模型Bert上进行二次预训练,得到医学领域的预训练语言模型BioBert,使用标注好的文本数据对BioBert进行微调,得到最终的医学文本分类模型.结果:病历文本和医学论文摘要文本两个数据集的分类实验显示,经过医学文本二次预训练的预训练语言模型在两个数据集上都取得了较好的分类效果.结论:通过自训练的方式对大量医学文本进行预训练得到的医学领域预训练语言模型,能在一定程度上解决使用通用预训练语言模型无法很好适配医学文本分布而导致分类性能偏低的问题.
...不再出现此类内容
编辑人员丨2023/8/5
