论文部分内容阅读
术语抽取技术是信息处理领域的一项基础性课题,是自然语言处理领域的非常重要的子任务,在诸如自然语言的生成、句法分析、数据挖掘以及机器翻译、文本分类等很多领域都有广泛的应用。 有关生物医学的最新信息大部分以文献的形式存在,近年来生物信息领域的术语抽取已经取得了一定的成果,但现有成果距离真正实用还有一定距离,其中最主要的问题就是识别的精确率和召回率还有待提高,尚不能满足实用化的要求。同时,在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取也成为名词术语自动抽取的一个难点问题。 本文以提高生物信息领域的术语抽取的性能作为目标,利用基于统计的方法从文本中发现知识,寻求新的识别策略,解决生物信息领域术语抽取的关键问题。本文的研究工作主要从如下几个方面展开: (1)对比分析国内外在术语自动抽取领域的研究成果,总结术语的各种表现特征。包括术语及术语的特征研究,真实文本中术语的本质、表现特征等,对术语抽取的相关统计参数进行对比研究和分析,为设计较好的术语抽取模型和自动抽取算法提供理论基础。 (2)针对术语的特点设计并实现术语自动抽取算法,确定术语的前后界,衡量术语的内部联合强度,在分析对比各种抽取参数的基础上,将多种术语抽取参数联合应用于生物信息抽取领域,提出了基于混合策略的术语自动抽取模型,充分利用不同参数之间的优缺点进行互补,避免了单纯用一种方法抽取术语的局限性,这些工作对于本领域术语识别的研究具有参考价值。 (3)对不同抽取方法的正确率进行分析和比较,结合NC-value参数在长术语抽取方面的优势及MI(mutual information)参数在计算术语的内部结合强度中的优势,提出了基于改进瀑布模型的术语抽取方法,并将每一步过滤后的候选术语集进行反馈。 实验结果表明,本文提出的两种抽取方法在术语抽取的准确率和召回率方面都取得了很好的效果。