论文部分内容阅读
随着互联网技术和科技的日益进步,网络信息不断递增,生物信息这类专业性文本持续增大。如何从这些海量专业性文本信息获取所需的知识成为了近年来学者专家的研究热点。
由于生物信息包含很多专业性问题,涉及到生物词汇缩写,异物同名词,同物异名词等,传统的词频模型不能很好地解决这些问题。生物信息学的发展,使得很多资源被整合成专门的生物信息词典,这些词典包含了许多的语义信息。目前,许多学者尝试利用语义信息进行生物信息检索,将概念及本体等语义知识融入检索模型。
为了识别出专业的术语以提高生物信息检索的精度,本文采用了基于语义的方法,利用概念并结合自然语言处理的相关技术,对生物信息检索技术做了一些研究。所做的主要工作包括以下几个方面:
第一,由于生物文本的信息量过大,把文本中的概念提取出来,用于表示文本,可以压缩文本的规模。本文利用生物信息学的专有词典来进行概念抽取。由于在生物文本中次要词语经常被作者忽略或者添加进去,这样精确字典匹配会造成大量的不匹配现象,所以本文采用了近似字典匹配的方法来解决这个问题,其基本思想是通过概念中重要的词语而不是所有的词语来识别概念。
第二,概念抽取完之后,有的词语会被转换成两个或者多个概念,这样便造成了歧义,本文采用最大熵模型消歧,认为这些词语所转化的多个概念有均等的出现概率。为了验证该消歧方法的有效性,完成一个对比实验,该实验直接选取所抽取到得第一个概念来代表该词语。通过对比实验发现最大熵模型的平均准确率比没有消歧的方法提高了6.5%。
第三,为了进一步的提高检索精度,本文引入了自然语言处理处理中的查询扩展、文本聚类技术。本文对中心概念进行查询扩展,然后利用中心概念和查询扩展出的概念对文本聚类,之后进行相似度排序,得到最终结果。为了验证该方法的有效性,完成一个对比实验,该实验利用查询扩展之后,直接计算相似度然后排序。通过对比实验发现利用聚类算法方法的平均准确率比没有利用聚类算法的方法提高了8.24%。