基于统计学习的中文组块分析技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：dengyq2000

【摘要】

：

随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,

【作者】

：

孙广路

【出处】

：

哈尔滨工业大学

【发表日期】

：

2008年期

【关键词】

：

中文组块分析条件随机域语义类特征词聚类一体化模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标记的文本和数据,并能够利用机器学习方法建立分析模型,对文本进行自动化的处理和标注。本文采用基于统计的机器学习方法,在建立中文组块语料库的基础上,研究了统计机器学习方法在组块分析中的应用,提出了可以帮助模型进行有效识别的新特征,并将其融合到分析模型中,提升了中文组块分析的性能,最终建立了具有词法分析和组块分析功能的一体化分析模型。本文研究的主要内容包含以下四个部分:第一,对于中文组块的定义和语料库建设方法进行研究,建立了三种基于不同要求和构建方法的中文组块分析语料库。第一种语料库构建方法抽取了句法树库中的最底层非终结节点作为组块,其可以作为完全句法分析的第一步分析使用;第二种语料库构建方法采用对于中文句法树库进行抽取和转化的方法,设计和确定了组块抽取规则、转化规则和剪枝规则,并建立了中文Chunklink语料生成算法,从宾州大学中文句法树库中抽取中文组块分析语料;第三种语料库构建方法采用人工标注的方式,建立了中文组块标注体系,在语言学家的指导下人工标注了专用于组块分析任务的语料库。采用不同方式进行组块语料库建设,可以使得模型针对于不同的需求应用合适的组块分析语料库。第二,对于组块分析模型方法进行研究。利用组块的边界标记和类型标记将组块分析问题转化成为序列化标注问题,提出了基于统计规则和产生式模型的组块分析方法;对最大熵马尔科夫模型进行了改进,使其适合组块分析任务,并提出了基于判别式模型的组块分析方法。在上述模型基础上提出了基于条件随机域模型的组块分析方法,克服了产生式模型和判别式模型的不足。重点研究了条件随机域模型训练方法,构建了模型的特征模板和系统框架,并分析了条件随机域模型在解决组块分析问题中体现出的融合不同类型的特征进行序列化标注的优势。引入错误驱动的N-fold模板纠正后处理算法进行后处理,进一步提升分析模型的性能。第三,对于组块分析模型中的特征选取问题进行研究。对于判别式模型中应用的特征类型及特征抽取方法进行分析,并从特征的不同应用效果中,研究了一般常用特征对于组块分析的影响。重点研究了将新的分析特征融入到分析模型中以提升组块分析性能。针对模型性能提升的瓶颈,设计了基于最小描述长度原则结合概念相似度计算的语义类自动抽取算法,将基于语义词典生成的语义类特征引入分析模型,证明了语义类特征能够有效地提升分析性能。针对自动词性标注的错误对组块分析带来的级联错误影响,设计了基于信息熵理论和层次聚类算法生成的词类特征,和基于先验类划分算法生成的词类特征,并将它们融入到分析模型中。两种组块分析任务驱动的词类特征是从语料库中直接生成,其对于组块标记具有更强的预测能力,而且能够有效地避免自动词性标注带来的不良影响。第四,对于组块分析的一体化模型建立问题进行研究。在建立组块分析语料库、分析模型的基础上,提出了双层条件随机域模型的组块分析一体化模型,模型将自动词性标注的N个最佳的结果输入到组块分析模型中,在一定程度上抑制了自动词性标注错误在组块分析中的传播和不良影响,提升了模型的性能。重点研究了利用任务驱动的新词类特征代替原有的自动词性标记特征,并在名实体识别和仿词识别的基础上,构建新的组块分析一体化模型,避免了自动词性标注带来的级联错误,提升了模型的分析性能,也减少了模型的处理流程和分析时间,为组块分析引入了一种新的处理模式和方法。利用受限向前向后算法引入可信度估计方法,对模型的输出结果进行评价。

其他文献

大熊猫细胞库基本建成

成都大熊猫繁育研究基地已基本建成大熊猫细胞库,可为大熊猫克隆工程提供技术及资源支持,对大熊猫资源保护具有拯救性的意义.

期刊

大熊猫细胞库基因种群

电容层析成像反问题求解及图像重建算法研究

电容层析成像技术(ECT)是一种新的计算机层析成像技术,它是通过测量物体表面周围电极之间的电容值来计算物体内部介电常数的空间分布,主要用于工业管道内的多相流检测。电容

学位

电容层析成像反问题求解图像重建流型辨识主成分分析图像边缘补偿

多媒体数据库技术在物流包装中的应用

主要阐述了物流与包装的关系，通过多媒体数据库技术，进行物流包装信息的存储。多媒体数据库设计工作，为物流包装信息的检索、校对、分析等提供相应的技术支持，实现多媒体数据库技

期刊

物流包装多媒体数据库数据分析

人工智能的中国特色

人工智能（ArtificialIntelligence，简称AI）已经成为中国最炙手可热的概念，不仅马云、李彦宏等互联网大佬为之相互争论，

期刊

中国特色人工智能李彦宏马云网大

基于初级视皮层感知机制的轮廓与边界检测

轮廓与边界定义了目标的外表形状,确定了区域之间的分界线,它们是人类与计算机进行目标识别的重要特征。然而从纷乱的自然场景中提取目标的轮廓与边界是一件非常困难的任务。

学位

轮廓与边界检测上下文相互作用环境抑制空间增强非经典感受野初级视皮层视觉感知机制

在线社会化网络的语义分析和语义社会网的构建

在线社会化网络系统近年来获得了巨大的成功,本文将分析现有在线社会化网络中的语义信息,以及将更多语义信息加入到社会化网络中的必要性和可行性。我们对在线社会化网络中现

学位

在线社会化网络语义网标签社会网整合语义社会网

空间混沌及其在图像加密中的应用

随着计算机技术与通信技术的迅猛发展,数字信息在世界范围内得到日益广泛的应用。然而,数字信息易于拷贝和发布给其应用带来了诸多安全问题。当前,数字信息在互联网和无线通

学位

混沌空间混沌信息安全密码学混沌密码图像加密

人口减少时代的城市规划:日本的经验与借鉴

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

城市规划过密问题过疏政策人口减少日本

空间和目标注意协同工作的视觉注意计算机模型研究

视觉注意可以把系统中有限的处理资源优先分配给少数几个显著的视觉区域。视觉注意的计算机模型研究对自动目标检测、图像和视频压缩、机器人场景分类和医学图像处理等多个领

学位

视觉注意目标注意模型空间注意模型显著性计算马尔可夫链

《牛津英语词典学史》述介

一、引言词典学是编纂词典的学问。关于词典学的学科地位有着两种截然相反的观点:一种观点认为词典学隶属于语言学中的词汇学(也有学者认为词典学应为与词汇学地位相等的语言

期刊

牛津英语词典二十世纪《牛津英语词典学史》单语词典双语词典

基于统计学习的中文组块分析技术研究

与本文相关的学术论文