论文部分内容阅读
文献挖掘是一种文本数据自动分析方法,涉及到数据挖掘、文本挖掘和自然语言处理等多个研究领域。作为一种从文献中提取、整合并发现知识的高效工具,能够快速处理大量文献并挖掘得到特定领域的知识。随着相关算法的引入与语料库的完善,文献挖掘的性能与可靠程度不断提高,因而在科学研究中得到越来越广泛的应用。生物医学研究积累了大量的文献数据,其中记载了大量的不同类型的知识。另一方面,生物信息技术研究的目的是管理并分析生物医学实验得到的海量数据,以及提供预测性或者指导性结论。作为生物信息技术研究的一个新兴方向,文献挖掘技术以生物医学文献数据为分析对象,提取和整合散布于文本数据中的知识,从而实现展示并推理文献中隐含的新知识的目的。本文以PubMed数据为研究对象,开发并整合多种文献挖掘方法,提取蛋白质、疾病和化合物相关的知识,并加以整合后用于新知识的发现。主要研究内容如下:1)识别文献数据中的实体,并映射到分子生物学数据库。文献中的实体识别是其他工作的基础。识别不同领域不同类型的实体所使用的方法各不相同,因而从生物医学文献中识别基因/蛋白质、疾病和化合物三类常见实体采用了不同的方法。利用基于统计的条件随机场方法,统计学习基因/蛋白质的命名特点与规律,从文献中识别出基因/蛋白质实体。利用基于词典的方法,从文献中提取出MeSH词典所描述的21类三级以下的疾病实体。同样,利用基于词典的方法从文献中提取出各类化合物实体。对于识别得到的基因/蛋白质实体,采用了分级映射方法,分别把实体映射到不同规范化程度的Entrez Gene数据库。按照与完备基因词典、中等基因词典和精简基因词典的匹配程度,把实体分为准确实体、可靠实体、相似实体和未知实体四部分。2)制定实体关联规则,整合实体之间的关联,得到六类关联实体。文本中识别得到的三类实体之间存在六种关联:蛋白质-蛋白质、疾病-疾病、化合物-化合物、蛋白质-疾病、蛋白质-化合物和疾病-化合物。首先通过共出现频率方法得到存在关联的各类实体。然后对存在共出现实体的句子进行词性标注,进而迭代提取出四类共536个描述实体关联的关联动词列表。以关联动词列表为基础,构建实体关联规则库。文本数据与关联规则库匹配后,得到六类关联实体数据。此外讨论了六类关联实体可能表示的生物医学意义以及相应的处理策略。3)基于实体关联数据构建相应的实体关联网络,并提供了两种网络分解方案来发现新的知识。以六类实体关联数据为基础,构建了6个简单实体关联网络。整合不同的简单实体关联网络后得到了2个杂合实体关联网络:分子相互作用网络与全关联网络。分析了8个实体关联网络的拓扑性质,并且把网络分解为连通子图、Hub子图和关联子图,从而得到存在间接关联的实体、活跃实体和一组关联实体构成的关联途径等新知识。4)构建了基于文献挖掘的生物医学知识发现平台的原型系统。平台整合了文献挖掘中所需的第三方工具以及自行开发的工具,提供统一的访问接口和数据格式。该平台能够完成实体识别、实体关联挖掘和实体关联网络构建三类知识发现任务,并且提供与第三方图显示工具兼容的数据格式,满足实体关联网络以及子图的可视化需求。