论文部分内容阅读
从20世纪60年代以来,作为自然语言处理领域的一个重要研究分支,文本信息抽取理论的研究受到了国内外研究者的广泛关注,得到了不断的发展,取得了许多研究成果。但是,在文本信息抽取中还存在许多关键的问题,例如,文本信息抽取性能不高、抽取模型的适用性不强、训练文本的人工标记工作量大等问题,有待进一步通过研究加以解决。本文通过规则和统计的方法,研究文本信息抽取的模型和算法,以进一步提高模型的抽取性能,增强模型的适用能力,减少模型的训练对人工标记文本的依赖程度,提高模型主动学习的能力,解决文本信息抽取中的一些关键问题。本文的主要研究工作包括以下几个方面;(1)在分析基于页面标志信息和基于文本模式信息两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合了上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息进行信息抽取,并对抽取结果进行必要的过滤,因而,新的算法具有更高的抽取精确度与更强的信息表达能力。(2)为了解决变化的WEB页面导致包装器失效的问题,使包装器模型能自动适用变化的WEB页面的信息抽取。论文基于以下的观察;尽管页面有多种多样的变化方式,但是许多重要的页面特征信息在新页面都得到了保存,例如文本模式信息、注释信息和超级链接信息等。提出了一种基于页面特征的包装器平衡算法,新算法首先从包装器正常工作时被收集起来的训练样例中学习得到WEB页面的模式信息、数据项注释信息以及可能的超级链接信息等特征信息,然后充分利用这些特征信息在变化的WEB页面中定位目标信息,以自动修复失效的包装器。对实际WEB站点信息抽取的实验表明,新算法能有效地维持包装器的平衡。(3)提出了一种基于聚簇隐马尔可夫模型的文本信息抽取算法。对于网上不同来源的格式不同的文本,在以往的抽取方法中,将所有的训练文本混合训练一个统一的隐马尔可夫模型,一般难以得到较优化的抽取模型,影响了抽取性能。因此,论文考虑将聚簇分析应用到文本信息抽取中,首先,对聚簇分析中的K-平均方法进行改进,以提高聚簇性能;然后,对训练文本的Markov链模型进行聚簇,用各个簇的文本训练出不同的抽取模型;最后,应用各模型分别进行文本信息抽取,并通过比较得到最优的抽取结果。仿真实验结果表明,对不同来源的文本信息的抽取,新的抽取模型和算法具有良好的适用能力和更高抽取性能。(4)研究了基于隐马尔可夫模型文本信息抽取中的信息熵模型。首先,考虑特征信息对提高文本信息抽取性能的作用,提出了一种基于最大熵隐马尔可夫模型的文本信息抽取算法,该算法通过最大熵模型,将文本的上下文特征信息和文本词汇本身包含的特征信息加入到模型的训练和文本信息抽取中,提高了抽取性能;其次,为了解决从大段文本信息中抽取关键信息的问题,将互信息模型应用到基于隐马尔可夫模型的文本信息抽取中,通过点互信息定量描述文本信息的隐马尔可夫模型中非相邻状态之间的转移概率,实现了对文本中关键信息的抽取,并得到了较好的抽取效果。(5)研究了文本信息抽取中的二阶隐马尔可夫模型。在一阶隐马尔可夫模型中,假设状态的转移概率和观察值的输出概率只依赖于模型当前的状态,一定程度制约了信息抽取的精确度。二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错误信息的识别能力更强。论文在一阶模型的ML(ML,MaximumLikelihood)算法的基础上推导了二阶模型的ML算法;提出了基于二阶隐马尔可夫模型的文本信息抽取算法;分析了二阶隐马尔可夫模型在提高信息抽取正确率上的有效性。仿真实验结果表明,新的算法比基于一阶隐马尔可夫模型的算法具有更高的抽取精确度。(6)研究了结合最大熵模型和二阶隐马尔可夫模型的文本信息抽取方法。在基于二阶隐马尔可夫模型的文本信息抽取中,虽然提高了模型对错误信息的识别能力,提高了信息抽取的正确率,但是信息抽取的召回率没有提高,因此,在该方法中,通过最大熵模型,在基于二阶隐马尔可夫模型的文本信息抽取中加入文本的上下文特征信息,进一步改善二阶隐马尔可夫模型的抽取性能,在进一步提高文本信息抽取正确率的同时也提高了召回率。(7)提出了一种文本信息抽取的主动学习算法。在只有部分标记训练文本的情况下,通过主动学习算法,将最有价值的训练文本挑选出来进行标记。该算法能应用到基于包装器模型和基于隐马尔可夫模型的文本信息抽取中,在不影响抽取性能的前提下,能有效降低模型的训练对已标记训练文本的依赖程度,很大程度减少人工标记训练文本的工作量。总之,论文通过规则和统计的方法分别从上述各个方面对文本信息抽取的模型和算法进行了深入研究。解决了文本信息抽取中存在的关键问题,提高了文本信息抽取的精确度和召回率;增强了抽取模型对不同格式的文本以及不断变化的WEB页面的适用能力;提高了模型主动学习的性能,降低了模型的训练对已标记训练文本的依赖程度,减少了人工标记工作量;取得了相关的研究成果。