论文部分内容阅读
本文介绍了一些经典的自动术语识别(ATR)算法,并对于它们的思想进行深入的分析和总结,并进行了相关的实验比较,对于其中的算法做了量化的评估。通过引入集成排序的思想来提高自动术语识别精准度,并设计了多种方法进行对比分析。本文还进行了半结构化术语抽取问题的研究,提出了自己的解决方法。 首先,本文对于ATR算法的基本思想以及统计学的ATR算法进行概要的介绍,对于这些算法进行了特征分析,对它们的基本原理进行了总结,给出了详细的公式以及示例。领域语料库需要先进行一些预处理之后才能形成候选术语,这样才能够直接应用到基础的ATR算法。本文是基于统计学特征的算法,因此从不同的方面来描述统计学的信息显得尤为重要,并因此而通过成熟的ATR算法来参考其特征提取。 为了进一步提高ATR算法的识别精准度,本文引入排序集成的思想来进一步处理术语识别的问题。即在多个有序序列的基础上进行集成,形成一个新的序列。这样的一个序列是加强了有效的特征,使术语的重要特征能够更加明显的表现出来。已有一些基础的集成方法可以进行处理来形成新的排序序列,但这样的序列并不能保证满足一些基本的投票标准。本文采用了局部Kemeny最优方法处理术语识别问题,在尽量降低多组序列逆序对之和的基础上,保持较高的执行效率。该方法先在多个ATR算法产生的序列集上使用基础的集成方法生成一个初始的集成序列,然后再进行局部Kemeny最优化,使其能够与初始集成序列保持一致,同时又满足孔多塞标准。这样的方法能够保持一个较小的SK值,使孔多塞赢家保持在序列的前面。 除此以外,本文还进行了半结构化文档自动术语提取的研究。互联网中有海量的数据信息,如何利用上面的资源进行领域术语的提取并构建相关的大量应用将具有非常重要的前景。从数据源中获取半结构化的领域语料库后,首先是对于半结构化文档资源进行文本的抽取和整理。特别是对于不规范的文档需要使用了相关的抽取工具进行处理,将其标签结构等问题规范化。 对于规范的半结构化文档,鉴于其具有树状结构,将其抽取成一个DOM树,然后以数据文本为基本单位进行属性特征的提取,数据文本往往分布在其叶子节点当中,候选术语是在单个数据文本里面经过相关预处理后生成的。经过分析文档组织结构和大量的试验对比,本文使用了数据文本的长度、超链接属性和结构层级等信息来进行统计实现,在解析文档的过程中需要对于这些半结构化属性进行记录,这样在该数据文本上的生成的候选术语便有了相应的半结构化属性值。对候选术语上的各个属性信息进行统计计算,以各个属性分别产生半结构化信息上的序列,生成序列集。然后去掉标签文本和其他非数据文本后,形成纯文本的数据文件。参考传统的ATR算法,采用其中一些重要的统计学特征,实现算法提取出候选的术语,并形成一个独立的排序序列。综合这两方面的实现,进行线性加权得出最终的候选术语分值。