论文部分内容阅读
生物医学数据的数量正在爆炸式地增长,如此海量的数据给医学科学家研究新药带来丰富的理论支持,但研究者们通宵达旦地阅读文献也不及其增长速度,更不用说抽取出隐藏在其中的信息。因此从生物医学数据中自动提取和分析信息的系统变得越来越重要。本论文对科学文献中生物本体间的情感关系表达、潜在关系抽取以及异源异构数据融合三个方面进行研究。随着信息存储多样化的发展,从单一的数据源中抽取信息有时不能满足科研工作者的知识需求,因此要求异源异构数据能实现集成信息服务,达到跨异构库知识发现的目的。为了解决该问题,本论文研究了基于数据融合和基于结果融合的两种潜在语义分析模型,前者将预处理后的数据源进行集成为一个数据集,然后继续对其进行分析。后者先独立地分析各数据源最后将结果集成。本论文通过实例验证,验证了两种集成方法的可行性和有效性。本论文利用基于图的半监督学习算法,即标注传递算法,来自动识别出生物实体之间的情感关系表达。目前,大部分研究都采用有监督学习方法,而且通常能取得较好的性能,但是基于有监督学习的关系抽取模型需要大量有标签的训练数据作为样本集,这将需要花费大量的人力和时间,降低效率。而标签传递算法把标签信息从图中的任意一个节点通过加权的各边循环地传递到附近的其他节点,最终达到全局稳定从而推导出未标签节点的标注信息数据,实现当训练数据不足时改善学习性能。本论文利用基于上下文环境的ABC模型去发现潜在关系,该模型能够挖掘多层级实体的潜在关系,从而获得更全面的结果数据。而且本论文跨越传统的数据构建方法,不用疾病-药物之间的关系直接检索,而是采用非相关关系的数据集作为数据源,即疾病-基因、基因-药物之间的关系,从而能够更全面的分析出疾病与药物之间的非相关潜在关系。