融合语言知识的汉语统计句法分析技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:gaoyueeryubing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,可以利用的信息资源越来越丰富。人们难以从这些资源中找到自己需要的信息,因此,自动问答、信息检索、信息抽取等技术应运而生。自然语言处理技术作为这些应用的基础,其重要性日益突出。自然语言处理技术是指使用计算机技术来研究和处理自然语言,包括分词、词性标注、句法分析、语义分析等。其中句法分析技术是一项关键性的基础工作,十分重要。 本文对自然语言处理中的句法分析技术进行了研究。分析了目前常用的句法分析理论和方法,比较其优缺点,选择概率上下文无关语法作为本文的句法分析模型,概率上下文无关语法具有很好的鲁棒性和可理解性,其概率计算相对简单,解析算法可以从上下文无关语法的解析算法直接扩展得到。 本文分析了汉语中一些词语的特殊用法,提出了语法功能词的概念,利用语法功能词对经典的概率上下文无关语法进行了扩展,得到了包含语法功能词的概率上下文无关语法,并从中生成语法功能词表。在此基础上,提出了基于语法功能词的概率Chart算法。该算法在Chart算法基础上,首先识别出所有包含语法功能词的短语,进一步分析这些短语之间的关系,最终通过概率计算,选择概率最大的语法树作为输出。同时,该算法通过引入省略句的语法规则,提供了两种解析标准:完整句和省略句,分别用于解析汉语中完整句和省略句。 汉语组块分析目前发展迅速,在最长名词短语识别、动宾短语识别等领域取得了不少成果。本文借助于知网中的中文信息结构库,尝试从语义角度进行组块识别,并把该方法作为基于语法功能词的概率Chart算法的预处理步骤,将输入句子中符合信息结构模式的相邻词语合并,以降低后续分析的复杂度。因为中文信息结构库的不一致性,我们对中文信息结构库进行了规范化处理。由于信息结构中管辖关系难以确定,我们没有考虑管辖关系,而且消除了其中一些重复的信息结构模式,并定义了义原标注集合,把输入句子中词语的标注结果使用标注集中的相关义原代替。使用基于信息结构模式的组块识别算法对输入句子进行分析,使用多种规模的信息结构模式库对算法进行了实验。本文的主要工作包括以下几个方面: (1) 对当前句法分析领域常用的理论和方法进行了介绍,选择了概率上下文无关语法作为本文的分析模型。介绍了解析上下文无关语法的常用算法,选择Chart算法作为本文的基础。 (2) 分析了汉语中一些词语的用法,提出了语法功能词的概念,对经典的概率上下文无关语法进行了扩充,得到包含语法功能词的概率上下文无关语法,从中生成语法功能词表。在此基础上,提出了基于语法功能词的概率Chart算法。 (3) 分析了知网中的中文信息结构库在汉语组块识别中的作用,尝试使用中文信息结构进行组块识别。对中文信息结构库进行了规范化处理,在此基础上提出了基于信息结构模式的汉语组块识别算法。 (4) 以基于信息结构模式的汉语组块识别算法为预处理模块,基于语法功能词的概率Chart算法作为句法分析模块,实现了一个句法分析原型系统。并对实验结果进行了分析。
其他文献
数据库技术是构建信息系统的核心技术,因此数据库安全问题作为信息安全问题必不可少的一个研究内容,也越来越引起关注。数据库访问的安全对于任何应用系统都是至关重要的。企业
如今网络正在逐步改变人们的工作方式和生活方式,成为当今社会发展的一个主题,因此各种网络应用随之而来。终端接入作为一种网络服务方式,越来越多的走进需要安全稳定交互式传输
随着计算机与信息技术的飞速发展,使人们能以更快、更廉价的方式获取信息,这就使得信息的数量以指数速度增长,人们称之为信息爆炸。在这些大量数据的背后隐藏着很多具有决策意义
当前,Web技术在Internet上得到了广泛的应用。如何构造功能强大、应用灵活、开发简便的Web应用程序是技术探讨的热点,而解决该问题的关键是系统架构、设计模式和开发方法。
从全球范围来看,近年来企业因安全问题引起的损失成倍增长;同时由于网络由封闭的计算机网络发展为开放的互联网络,业务由简单的数据通信,发展到网上交易,促使信息安全技术也
SamSung公司的S3C410B是基于以太网应用系统的高性价比16/32位RISC微控制器,内含一个有ARM公司设计的16/32位ARM7TDMIRISC处理器核,ARM7TDMI为低功耗、高性能的16/32核,最适合
现场总线是用于过程自动化和制造自动化最底层的现场设备或现场仪表互连的通信网络,是现场通信网络与计算机控制系统的集成。现场总线的节点是具有综合功能的智能仪表,现场总
本文首先指出了在目前广泛应用的传统软件工程方法开发软件产品所存在的问题,对比分析和研究了敏捷软件开发与传统软件工程的区别,引入了敏捷软件开发的概念和内容。然后详细介
当前,建筑业的审核、算量、施工等设计后工序仍停留在人工读图的状态。VHEasyQS作为第五代算量软件,在设计时直接生成完整的建筑物三维模型并实现构件间全局搭接关系分析,真正做
开发企业级管理信息系统须符合企业的实际业务需求,尽可能易于重用和扩展,需要快速且高效地进行开发,确保可以及时投入使用。为满足这些要求,应采用N层软件体系结构以及快速有效