面向医疗领域的实体对齐研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bartech
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据的蓬勃发展带动了智慧医疗的兴起,随着电子化健康信息数据的迅猛增长,如何融合使用这些大数据成为了提高当代医疗水平、构建智慧医疗的关键。在海量电子医疗信息中,对于同一个医疗实体会有不同的称谓方式,多种多样的称呼对于医疗领域的本体构建和知识图谱的构建都是一个巨大的阻碍。因此,只有将多称谓的医疗实体映射到标准的术语中,构成同义医疗实体库,才能实现融合并利用多源数据知识。但现有的现有的医疗领域实体对齐主要是针对UMLS的外文知识库,在国内的医学术语对齐研究较少。通过实体对齐技术达到的知识库融合是指,可以从顶层创建一个大规模的统一知识库,从而帮助及其理解来源广质量差异大的数据,形成高质量数据。本课题共进行了如下几项研究:(1)本文数据获取来源为CDD(临床医学知识服务系统)、百度医疗百科、好大夫在线医疗平台、万方医疗知识库这四个医疗网站的数据,在爬取信息后对信息进行抽取并整理。疾病实体对齐对照库方面,我们采用国际疾病分类编码(International Classification of Diseases,ICD)作为疾病实体对照的依据。对数据源进行命名实体识别工作,抽取其中关键的实体作为后续研究工作的特征。利用手动匹配融合4个不同的数据源,构建同义实体对照库,并对标到ICD编码库上。(2)进行了基于无监督学习的医疗领域实体对齐研究工作。首先,获取需对齐实体项的候选实体集合。本文就围绕<待对齐实体,候选实体>这个实体组,通过属性描述文本、相关实体等实体指称项的可用特征,做无监督实体对齐的方法有:基于成对实体相似性的方法、基于领域词嵌入的WMD方法以及基于图游走的实体对齐方法。对待对齐实体与候选实体之间相关程度的判断,从而找到目标实体指称项。(3)进行了基于有监督学习的医疗领域实体对齐研究工作。本文根据对照库人工构造<正例,反例>数据对作为训练数据,这样将对齐问题转化为二分类问题并使用深度学习模型对训练数据进行学习。在LSTM和GRU等模型上进行实验,并加入了注意力机制强调了特征。此外,构建了一个双通道深度学习模型,利用double_input来加强模型学习能力。
其他文献
本论文研究的问题是:美国政府与高等教育认证机构之间是一种什么样的关系?这项研究有助于我们清晰地认识美国政府在高等教育质量保障当中的职能定位,有助于中国政府在高等教
登革热是由埃及伊蚊(Aedes aegypti)和白纹伊蚊(Aedes albopictus)为主要媒介传播的的输入性虫媒传染病。近年来,由于境外病例输入压力较大和白纹伊蚊的高密度和广泛分布,主
介绍气候环境试验设备国内外发展概况及其体系与标准,提出设计和生产符合我国基本环境试验规程国标要求的气候环境试验设备的几点建议.
以人为本的大学教学是在大学教学过程中,坚持以人为本的教学理念,遵循教育规律,从大学生的发展需要出发,根据学生的实际情况,围绕学生组织教学活动,充分调动教师和学生的积极
检阅中国大学,我们不得不承认中国大学既缺少作为学术组织的自主性与相对独立性,也缺乏为知识而知识的独立的品格,中国大学知识性的缺失有其深刻的制度根源。中国大学制度的
<正>引言鸡传染性支气管炎病毒(IBV)为冠状病毒科冠状病毒属的代表种,其基因组为单股正链RNA,长约27.6kb,至少有10个明显的开放阅读框(ORF),分别编码病毒的结构蛋白和非结构
会议
影响对外贸易可持续发展能力的因素较为复杂,本文分析河南省对外贸易可持续发展中存在的问题以及面临的挑战,从生态、技术创新以及加工贸易升级等角度出发,采取切实可行的措
领导干部树立求真务实的政绩观,是党的根本性质、面临的任务和从严治党的需要。当前一些领导干部在实际工作中存在着种种不正确的政绩观。要树立求真务实的政绩观,领导干部必
随着我国社会转型,以及高等教育改革的不断深入,我国大学生弱势群体的问题已经日益突出。大学生弱势群体除具有大学生群体一般的特征外,还有着其独特的思想和行为,他们的存在影响
在温敏型谷氨酸发酵生产过程中,需要消耗大量的葡萄糖供菌体生长利用,代谢过程中逐步积累的海藻糖不能被菌体消耗利用,造成发酵成本浪费。为了进一步提高谷氨酸发酵的收率及