论文部分内容阅读
随着生物医学的迅速发展,从医学文献中抽取蛋白质关系已经成为面向生物医学方面的自然语言处理任务中一项非常重要的任务。目前研究学者已经提出很多蛋白质关系抽取的方法,但是其中大部分方法都要依赖于句法分析工具获得句法信息,语义信息,依存信息等。然而应用句法分析工具存在两个弊端一是时间耗费,另外一个是句法分析工具本身所存在的精度损失。针对上述问题本文仅利用词特征的方法取得与句法分析结果相当的实验结果。本文首先从句子中得到单元词特征和二元词特征,并且将词在对应句子中的位置信息融入到所选择的特征中,然后利用奇异值分解方法获取特征与特征之间的潜在语义关系,与此同时得到一个低维正交子空间。这样既避免了句法分析所带来的弊端,同时还获得了相关语义信息。本文使用该方法在单一数据集和交叉数据集中分别进行实验,并取得较好效果。