论文部分内容阅读
近年来,生物医学技术发展突飞猛进,相关的科研成果和学术报告更是层出不穷。虽然互联网时代的到来使得大家能够方便地从网络上找到这些信息,但大部分的信息仍然被淹没在海量的生物医学文献中。如果仅靠研究人员手动阅读这些文献是很难及时有效地获取有用信息的,于是便出现了生物文本挖掘技术。在生物文本挖掘领域中,最受关注的还是蛋白质相互作用关系的提取。原因是蛋白质是一切生命活动不可或缺的物质基础,了解其相互作用关系有助于系统地理解生命活动的分子机制,并且对疾病的治疗和新药的研制有积极的推动作用。早期的蛋白质相互作用关系提取研究中应用较多的是基于规则的方法,这类方法不仅耗时长且系统效果过度依赖规则的质量,可移植性差。目前应用较为广泛的是机器学习方法,其又分为特征向量方法和核方法,特征向量方法避免不了复杂的特征向量的构造和映射过程,因此基于核函数的方法是目前主流的方法。然而现在已有的核函数大部分都基于依存信息,很少有研究采用基于成分句法树的核方法来提取蛋白质相互作用关系。事实上,成分句法树本身具有丰富的语法和结构化特征,对蛋白质相互作用关系提取有重要意义。最短依存路径指导的成分分析树算法是其中少有的基于树核的算法。最短依存路径指导的成分分析树算法是用句子中两个蛋白质间的最短依存路径去指导成分句法树的裁剪,但这样生成的句法树仍然不够简洁。原因是最短依存路径上存在同位语依存关系带来的噪音干扰,这种噪音信息不仅增加了句法树表示的复杂性,而且会妨碍分类器的识别和判断。为了解决这个问题,本文提出了有效优化路径指导的成分分析树算法,通过定义相关的处理规则去掉同位语成分,消除对蛋白质相互作用关系提取毫无帮助的噪音信息,最后用优化后的路径来裁剪成分分析树。实验结果表明改进的有效优化路径指导的成分分析树算法对提高蛋白质相互作用关系提取性能是有效的。通过对最短依存路径指导的成分分析树算法在五个常用语料库上的错误分类结果的分析,发现情态动词短语后面表示相互作用的动词容易被最短依存路径遗漏,导致生成的句法树结构不能完整表达蛋白质关系实例。为了解决这个问题,本文在有效优化路径指导的成分分析树算法的基础上又提出了有效优化和扩展路径指导的成分分析树算法,定义相关的处理规则将遗漏的表达蛋白质相互作用关系的动词添加到最短依存路径中,并结合有效优化路径指导的成分分析树算法对同位语依存关系的处理,保证了由有效优化和扩展路径指导生成的成分句法树结构的完整性和简洁性。实验结果表明有效优化和扩展路径指导的成分句法树算法进一步提高了蛋白质相互作用关系提取性能。