基于统计学习的中文组块分析技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dengyq2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标记的文本和数据,并能够利用机器学习方法建立分析模型,对文本进行自动化的处理和标注。本文采用基于统计的机器学习方法,在建立中文组块语料库的基础上,研究了统计机器学习方法在组块分析中的应用,提出了可以帮助模型进行有效识别的新特征,并将其融合到分析模型中,提升了中文组块分析的性能,最终建立了具有词法分析和组块分析功能的一体化分析模型。本文研究的主要内容包含以下四个部分:第一,对于中文组块的定义和语料库建设方法进行研究,建立了三种基于不同要求和构建方法的中文组块分析语料库。第一种语料库构建方法抽取了句法树库中的最底层非终结节点作为组块,其可以作为完全句法分析的第一步分析使用;第二种语料库构建方法采用对于中文句法树库进行抽取和转化的方法,设计和确定了组块抽取规则、转化规则和剪枝规则,并建立了中文Chunklink语料生成算法,从宾州大学中文句法树库中抽取中文组块分析语料;第三种语料库构建方法采用人工标注的方式,建立了中文组块标注体系,在语言学家的指导下人工标注了专用于组块分析任务的语料库。采用不同方式进行组块语料库建设,可以使得模型针对于不同的需求应用合适的组块分析语料库。第二,对于组块分析模型方法进行研究。利用组块的边界标记和类型标记将组块分析问题转化成为序列化标注问题,提出了基于统计规则和产生式模型的组块分析方法;对最大熵马尔科夫模型进行了改进,使其适合组块分析任务,并提出了基于判别式模型的组块分析方法。在上述模型基础上提出了基于条件随机域模型的组块分析方法,克服了产生式模型和判别式模型的不足。重点研究了条件随机域模型训练方法,构建了模型的特征模板和系统框架,并分析了条件随机域模型在解决组块分析问题中体现出的融合不同类型的特征进行序列化标注的优势。引入错误驱动的N-fold模板纠正后处理算法进行后处理,进一步提升分析模型的性能。第三,对于组块分析模型中的特征选取问题进行研究。对于判别式模型中应用的特征类型及特征抽取方法进行分析,并从特征的不同应用效果中,研究了一般常用特征对于组块分析的影响。重点研究了将新的分析特征融入到分析模型中以提升组块分析性能。针对模型性能提升的瓶颈,设计了基于最小描述长度原则结合概念相似度计算的语义类自动抽取算法,将基于语义词典生成的语义类特征引入分析模型,证明了语义类特征能够有效地提升分析性能。针对自动词性标注的错误对组块分析带来的级联错误影响,设计了基于信息熵理论和层次聚类算法生成的词类特征,和基于先验类划分算法生成的词类特征,并将它们融入到分析模型中。两种组块分析任务驱动的词类特征是从语料库中直接生成,其对于组块标记具有更强的预测能力,而且能够有效地避免自动词性标注带来的不良影响。第四,对于组块分析的一体化模型建立问题进行研究。在建立组块分析语料库、分析模型的基础上,提出了双层条件随机域模型的组块分析一体化模型,模型将自动词性标注的N个最佳的结果输入到组块分析模型中,在一定程度上抑制了自动词性标注错误在组块分析中的传播和不良影响,提升了模型的性能。重点研究了利用任务驱动的新词类特征代替原有的自动词性标记特征,并在名实体识别和仿词识别的基础上,构建新的组块分析一体化模型,避免了自动词性标注带来的级联错误,提升了模型的分析性能,也减少了模型的处理流程和分析时间,为组块分析引入了一种新的处理模式和方法。利用受限向前向后算法引入可信度估计方法,对模型的输出结果进行评价。
其他文献
成都大熊猫繁育研究基地已基本建成大熊猫细胞库,可为大熊猫克隆工程提供技术及资源支持,对大熊猫资源保护具有拯救性的意义.
电容层析成像技术(ECT)是一种新的计算机层析成像技术,它是通过测量物体表面周围电极之间的电容值来计算物体内部介电常数的空间分布,主要用于工业管道内的多相流检测。电容
主要阐述了物流与包装的关系,通过多媒体数据库技术,进行物流包装信息的存储。多媒体数据库设计工作,为物流包装信息的检索、校对、分析等提供相应的技术支持,实现多媒体数据库技
人工智能(ArtificialIntelligence,简称AI)已经成为中国最炙手可热的概念,不仅马云、李彦宏等互联网大佬为之相互争论,
轮廓与边界定义了目标的外表形状,确定了区域之间的分界线,它们是人类与计算机进行目标识别的重要特征。然而从纷乱的自然场景中提取目标的轮廓与边界是一件非常困难的任务。
在线社会化网络系统近年来获得了巨大的成功,本文将分析现有在线社会化网络中的语义信息,以及将更多语义信息加入到社会化网络中的必要性和可行性。我们对在线社会化网络中现
随着计算机技术与通信技术的迅猛发展,数字信息在世界范围内得到日益广泛的应用。然而,数字信息易于拷贝和发布给其应用带来了诸多安全问题。当前,数字信息在互联网和无线通
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
视觉注意可以把系统中有限的处理资源优先分配给少数几个显著的视觉区域。视觉注意的计算机模型研究对自动目标检测、图像和视频压缩、机器人场景分类和医学图像处理等多个领
一、引言词典学是编纂词典的学问。关于词典学的学科地位有着两种截然相反的观点:一种观点认为词典学隶属于语言学中的词汇学(也有学者认为词典学应为与词汇学地位相等的语言