论文部分内容阅读
随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标记的文本和数据,并能够利用机器学习方法建立分析模型,对文本进行自动化的处理和标注。本文采用基于统计的机器学习方法,在建立中文组块语料库的基础上,研究了统计机器学习方法在组块分析中的应用,提出了可以帮助模型进行有效识别的新特征,并将其融合到分析模型中,提升了中文组块分析的性能,最终建立了具有词法分析和组块分析功能的一体化分析模型。本文研究的主要内容包含以下四个部分:第一,对于中文组块的定义和语料库建设方法进行研究,建立了三种基于不同要求和构建方法的中文组块分析语料库。第一种语料库构建方法抽取了句法树库中的最底层非终结节点作为组块,其可以作为完全句法分析的第一步分析使用;第二种语料库构建方法采用对于中文句法树库进行抽取和转化的方法,设计和确定了组块抽取规则、转化规则和剪枝规则,并建立了中文Chunklink语料生成算法,从宾州大学中文句法树库中抽取中文组块分析语料;第三种语料库构建方法采用人工标注的方式,建立了中文组块标注体系,在语言学家的指导下人工标注了专用于组块分析任务的语料库。采用不同方式进行组块语料库建设,可以使得模型针对于不同的需求应用合适的组块分析语料库。第二,对于组块分析模型方法进行研究。利用组块的边界标记和类型标记将组块分析问题转化成为序列化标注问题,提出了基于统计规则和产生式模型的组块分析方法;对最大熵马尔科夫模型进行了改进,使其适合组块分析任务,并提出了基于判别式模型的组块分析方法。在上述模型基础上提出了基于条件随机域模型的组块分析方法,克服了产生式模型和判别式模型的不足。重点研究了条件随机域模型训练方法,构建了模型的特征模板和系统框架,并分析了条件随机域模型在解决组块分析问题中体现出的融合不同类型的特征进行序列化标注的优势。引入错误驱动的N-fold模板纠正后处理算法进行后处理,进一步提升分析模型的性能。第三,对于组块分析模型中的特征选取问题进行研究。对于判别式模型中应用的特征类型及特征抽取方法进行分析,并从特征的不同应用效果中,研究了一般常用特征对于组块分析的影响。重点研究了将新的分析特征融入到分析模型中以提升组块分析性能。针对模型性能提升的瓶颈,设计了基于最小描述长度原则结合概念相似度计算的语义类自动抽取算法,将基于语义词典生成的语义类特征引入分析模型,证明了语义类特征能够有效地提升分析性能。针对自动词性标注的错误对组块分析带来的级联错误影响,设计了基于信息熵理论和层次聚类算法生成的词类特征,和基于先验类划分算法生成的词类特征,并将它们融入到分析模型中。两种组块分析任务驱动的词类特征是从语料库中直接生成,其对于组块标记具有更强的预测能力,而且能够有效地避免自动词性标注带来的不良影响。第四,对于组块分析的一体化模型建立问题进行研究。在建立组块分析语料库、分析模型的基础上,提出了双层条件随机域模型的组块分析一体化模型,模型将自动词性标注的N个最佳的结果输入到组块分析模型中,在一定程度上抑制了自动词性标注错误在组块分析中的传播和不良影响,提升了模型的性能。重点研究了利用任务驱动的新词类特征代替原有的自动词性标记特征,并在名实体识别和仿词识别的基础上,构建新的组块分析一体化模型,避免了自动词性标注带来的级联错误,提升了模型的分析性能,也减少了模型的处理流程和分析时间,为组块分析引入了一种新的处理模式和方法。利用受限向前向后算法引入可信度估计方法,对模型的输出结果进行评价。