基于自然语言处理技术的循证医学信息提取研究

被引量 : 13次 | 上传用户:Johnnywang03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:流行病学是研究人类致病因素的科学。生物医学研究文献中有很多流行病学研究成果,但是这些信息并不能直接使用计算机进行分析。传统上,循证医学研究依靠人工阅读的方式从流行病学研究文献中提取信息,但是这种方式费时费力,难以应对海量的数据。为了设计出能够进行自动信息提取的系统,以用于建立循证医学研究知识库,本课题开发了基于机器学习和基于规则的自动信息提取系统。方法:本文研究出两种自动信息提取系统,从生物医学文献中提取致病因素和疾病信息。在研究初期,课题开发出DEEL系统(用于从生物医学文献中提取致病因素)。该系统由一个自然语言处理引擎和一个基于规则的文本分类器构成,用于从流行病学文献中自动提取致病因素相关的信息。之后的研究中,本课题又开发出另一个系统,它也由两部分组成,第一部分使用一个自然语言引擎来标识出所有的名词短语,并收集该名词短语的语义等信息。第二部分是一个基于机器学习的文本分类器,利用从自然语言处理引擎中获取的信息,它能够标识出三类术语(名词短语):致病因素、疾病以及不相关的短语。在该系统中,本课题应用了四种算法:朴素贝叶斯算法、决策树算法、支持向量机算法和逻辑回归算法。并且比较了这四种算法在不同特征(如相邻的单词及其语义类型)上的结果。结果:1.为了评估DEEL系统,我们将由流行病学专家人工注解的美国流行病学期刊中的文献输入该系统,评估发现最好的结果F-measure是64.6%,精确率和召回率分别为61.0%和68.8%。然后进一步分析了致病因素词项,结果显示尽管UMLS有着较好的语义分类,但是更适合致病因素词项的语义分类仍然是迫切需要的。2.为了评估基于机器学习的文本分类器,我们将机器学习分类器的结果与人工注解的结果进行对比,评估显示基于机器学习文本分类器提取致病因索相关术语(名词短语)最好的F-measure为82.0%,精确率和召回率分别为83.0%和81.0%。该分类器提取疾病相关术语最好的(?)-measure为70.0%,精确率和召回率分别为75.0%和65.0%。结论:本研究开发出两个系统从生物医学文献中自动提取致病因素和疾病相关词项,分别是基于规则的文本分类器和基于机器学习的文本分类器。评估结果证实基于机器学习的文本分类器优于基于规则的分类系统。该方法对于从流行病学研究文献中自动提取循证医学研究的证据有很大的帮助。
其他文献
期刊
<正>30年了,让我们穿越时光的隧道,对农民工的历史做一次回顾,尽管这种回顾缺少"文学性",我觉得依然是有必要的。1978年l2月18日,安徽省凤阳县梨园公社小岗生产队,21个长年累
<正>我国成功发射玻利维亚通信卫星2013年12月21日,我国在西昌卫星发射中心使用"长征"三号乙运载火箭成功将玻利维亚通信卫星送入预定轨道。玻利维亚通信卫星采用中国空间技
将猫眼逆向器作为反射镜,应用在全外腔长氦氖激光器中组成猫眼谐振腔来提高激光谐振腔的稳定性,并设计了一套检测猫眼逆向器的装置。以功率稳定性为参考指标,做了一系列对比
根据现阶段旅游管理专业学生的就业现状及其影响因素,要解决旅游人才市场的供需矛盾,就必须对现有的旅游教育模式进行改革,确立明确的人才培养目标和科学的课程体系.
托马斯·哈代在“性格与环境”小说《卡斯特桥市长》中把主人翁和其他人物置于同一自然、社会和历史环境中,着重分析了人物性格在其命运中所起的举足轻重的作用。通过对亨察
范畴的“同一”和“统一”是早期胡塞尔现象学研究的一个关键性问题,这一问题可以追溯到弗雷格那里,胡塞尔对弗雷格关于数的同一性作逻辑建构进行了批判,然后胡塞尔运用意向
随着网络信息时代的到来,网络应用已经逐步渗透到人类社会的各行各业。数字化、信息化的生存模式使整个世界的经济面临着新的机遇和挑战。然而在改变着企业经营管理模式的同
随着国内建筑业的飞速发展和工程实际对施工周期及环保要求的不断提高,振动沉桩施工法凭借其高效率、低污染等独特的优势越来越受到施工单位的欢迎,在桩基础施工领域有着广泛的
钼作为不可再生且资源有限的稀有金属,已成为国民经济发展中重要的工业原材料和不可替代的战略物资。文章通过对我国钼资源储量、开发及利用现状的分析,找出存在的问题并提出