论文部分内容阅读
海量数据的蓬勃发展带动了智慧医疗的兴起,随着电子化健康信息数据的迅猛增长,如何融合使用这些大数据成为了提高当代医疗水平、构建智慧医疗的关键。在海量电子医疗信息中,对于同一个医疗实体会有不同的称谓方式,多种多样的称呼对于医疗领域的本体构建和知识图谱的构建都是一个巨大的阻碍。因此,只有将多称谓的医疗实体映射到标准的术语中,构成同义医疗实体库,才能实现融合并利用多源数据知识。但现有的现有的医疗领域实体对齐主要是针对UMLS的外文知识库,在国内的医学术语对齐研究较少。通过实体对齐技术达到的知识库融合是指,可以从顶层创建一个大规模的统一知识库,从而帮助及其理解来源广质量差异大的数据,形成高质量数据。本课题共进行了如下几项研究:(1)本文数据获取来源为CDD(临床医学知识服务系统)、百度医疗百科、好大夫在线医疗平台、万方医疗知识库这四个医疗网站的数据,在爬取信息后对信息进行抽取并整理。疾病实体对齐对照库方面,我们采用国际疾病分类编码(International Classification of Diseases,ICD)作为疾病实体对照的依据。对数据源进行命名实体识别工作,抽取其中关键的实体作为后续研究工作的特征。利用手动匹配融合4个不同的数据源,构建同义实体对照库,并对标到ICD编码库上。(2)进行了基于无监督学习的医疗领域实体对齐研究工作。首先,获取需对齐实体项的候选实体集合。本文就围绕<待对齐实体,候选实体>这个实体组,通过属性描述文本、相关实体等实体指称项的可用特征,做无监督实体对齐的方法有:基于成对实体相似性的方法、基于领域词嵌入的WMD方法以及基于图游走的实体对齐方法。对待对齐实体与候选实体之间相关程度的判断,从而找到目标实体指称项。(3)进行了基于有监督学习的医疗领域实体对齐研究工作。本文根据对照库人工构造<正例,反例>数据对作为训练数据,这样将对齐问题转化为二分类问题并使用深度学习模型对训练数据进行学习。在LSTM和GRU等模型上进行实验,并加入了注意力机制强调了特征。此外,构建了一个双通道深度学习模型,利用double_input来加强模型学习能力。