论文部分内容阅读
生物医学文献和生物医学数据库是生物医学领域知识的主要来源,生物医学文献和数据库中的生物医学实体关系是领域知识的一种表现形式。实体关系将文献中抽象的语义信息转变为结构化的实体信息,不仅方便生物医学领域研究人员对领域知识的获取,还可以实现生物医学信息的自动化处理,推动生物医学领域研究工具的开发及医疗领域的信息化发展。因此,生物医学领域的实体关系抽取是将生物医学领域知识结构化和发现新生物医学知识的重要方法。目前研究工作主要集中在海量生物医学文献中抽取实体关系方法研究,而从生物医学结构化知识中抽取实体关系方法的研究还没有得到广泛的关注。本文以生物医学实体关系抽取为研究主线,研究生物医学文献主题关系模型,抽取文献主题相关的实体关系,进而构建生物医学知识网络,在知识网络上实现基于链路预测的生物医学实体发现方法和基于图神经网络的生物医学实体发现方法,从结构化生物医学数据库中发现实体隐性关系。本文主要的研究内容包含以下几部分:第一,针对当前抽取生物医学实体关系与文献主题相关性不足的问题,研究实现文献主题关系抽取方法,通过建立主题分布模型和实体关系抽取模型,从特定文献中抽取与主题相关的生物医学文献主题关系。文献主题关系是与某一文献主题相关的、从这篇文献中抽取的生物医学实体关系。传统海量文献中抽取生物医学实体关系的方法不能确定文献主题与抽取实体关系之间的主题相关性。本文提出主题实体在文献中的空间分布模型,将文献的主题信息转化成实体空间分布属性,赋予文献中所有生物医学实体主题概率值。将此模型与基于模式的实体关系抽取方法结合,获得文献主题关系抽取模型。文献主题关系抽取模型抽取的实体关系与对应的文献主题相关。文献主题关系对应文献就是它们实体关系的证明。文献主题关系与文献的关联关系可以用于建立面向实体关系的文献检索模型。实验结果表明,与传统的生物医学实体关系抽取方法相比,文献主题关系抽取模型抽取实体关系准确度相似,同时还能实现文献主题的发现。第二,针对生物医学多类型实体知识库信息量有限和生物医学知识库中实体关系抽取研究较少的问题,研究多类型实体知识网络的构建方法和实体知识网络上的实体隐性关系抽取方法。建立生物医学知识网络,并实现基于链路预测的实体关系抽取方法,从生物医学知识网络中抽取实体隐性关系。以疾病实体和基因实体为例,研究单类型实体的多个数据库数据的融合方法,建立单类型实体知识网络。引入实体关系数据库和文献主题关系,利用实体关系映射建立不同类型生物医学实体之间的关联关系,进而实现多个单类型实体数据库信息的融合,构建多类型实体知识网络。生物医学知识网络包含融入的多类型实体的属性特征和关系信息。实体知识网络中的连通路径连接可能存在实体关系的实体,这些实体之间的潜在关系是实体隐性关系。设计实现生物医学知识网络中基于链路预测的实体隐性关系发现方法。实验结果证明生物医学知识网络中实体隐性关系确实存在,通过实体隐性抽取方法获得实体关系,并通过最新的生物医学文献加以验证。第三,针对生物医学知识网络中实体关系抽取研究较少和文献中实体抽取较少利用外部领域知识的问题,设计实现基于图神经网络的生物医学实体关系发现方法,使用本文构建的生物医学知识网络,建立孪生图神经网络模型,发现生物医学知识网络中的生物医学实体隐性关系,辅助实体关系抽取。生物医学知识网络是多类型生物医学实体数据库,目前对这一类知识库中的实体关系抽取方法研究较少,因此生物医学知识网络中包含大量待发现的实体关系。同时,利用生物医学领域知识作为外部信息,从文献中抽取实体关系的方法模型很少,而领域知识含有的信息对实体关系抽取有重要参考价值。本文利用孪生网络结构和图神经网络构建生物医学实体关系发现方法,学习实体在生物医学知识网络上的空间特征和语义特征,并利用学习的实体特征进行实体关系判断,实现生物医学知识网络中的实体关系发现。通过引入文献中实体的位置向量,结合图神经网络中实体特征,判断文献中实体关系的存在。实验结果表明,生物医学知识网络实体关系发现方法的准确率和性能,优于基于链路预测的实体关系发现方法等其它实体关系发现方法。