论文部分内容阅读
作为生物医学信息抽取领域的重要分支,蛋白质交互关系抽取(Protein-Protein Interaction (PPI))是构建蛋白质关系网络的前提条件,具有至关重要的研究意义。目前的PPI研究大多采用统计机器学习的方法,取得了较好的效果。但现有的机器学习方法在PPI抽取任务上仍存在两个亟待解决的难题:标注数据匮乏问题和特征表示时的“数据稀疏”和“数据鸿沟”问题。首先,已标注数据不足会导致模型的抽取效果下降,而在生物医学领域,人工标注数据往往需要大量的、昂贵的实验;另外,传统机器学习方法在特征表示时普遍采用独热码(One-Hot Code)编码方式,忽略了语序和语法等信息,不能表达出词汇间的语义关联信息,限制了PPI抽取精度的提高。针对上述两个问题,本文分别从以下两个方面进行了研究:(1)将基于实例的迁移学习方法TrAdaboost引入到PPI抽取任务中,并在此基础上提出了一种改进的DisTrAdaboost算法。由于不同领域间数据分布存在差异,TrAdaboost算法容易因收敛速度过慢而产生负迁移,而改进的DisTrAdaboost算法借助于实例的相对分布来调整初始权重,可以有效地避免负迁移。实验结果表明,在公共语料库AIMed 上, TrAdaboost算法和改进的DisTrAdaboos t算法均获得了明显优于基准算法的性能;同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进的DisTrAdaboost算法仍保持良好的迁移效果。(2)提出了一种基于词表示的特征表示方法,用于解决PPI抽取中的“数据稀疏”和“数据鸿沟”问题。本文使用词表示方法从大量无标记数据中无监督地学习潜在语义信息,根据语义信息将单词映射成向量空间中的向量或者将语义相似的单词聚为一类,使得语义相近的单词具有相似的空间分布,进而解决“数据稀疏”和“数据鸿沟”问题,提高PPI抽取性能。本文使用了三种词表示方法:分布式词表示方法、基于向量的聚类方法和布朗聚类方法用于提升蛋白质关系抽取任务的效果。实验结果显示,分布式词表示方法在五个公共语料库:AIMed, BioInfer, HPRD50, IEPA和LLL上效果均优于其他两种聚类方法,并且F-值分别达到了69.7%,74.0%,78.0%,76.5%和87.3%,高于其他现有的蛋白质关系抽取系统。