汉语句法分析方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:jscumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句子的句法结构,即句子包含的句法单位以及这些句法单位相互之间的关系。句法分析问题的解决对于机器翻译、自然语言理解、信息抽取和自动文摘等自然语言处理系统都有着极其重要的意义。在基于统计的句法分析方法中,最关键的两个问题是句法分析算法和歧义消解模型的设计,他们决定着句法分析系统的效率和分析正确率。本文从事的工作则从这些方面入手,实现了一个高效的中文句法分析器,主要研究工作如下: 1.在句法分析算法方面,对传统的句法分析算法从处理策略,算法的时间和空间复杂度等方面进行了综合分析和比较。并在此基础上,详细研究了Chart算法的一个改进算法——“角色反演算法”。针对该算法,本文在两方面提出进一步的改进。首先改进了算法中采用的静态数据表的构造方法,使得该算法能处理的原始输入词性标记从最小的句法单元——词,扩展到更高一级的句法单元——短语和句子,以很小的额外空间消耗为代价,提高了算法的处理能力和效率。然后,引入规则的概率信息对静态表排序,有利于后续分析的搜索和剪枝过程。 2.针对复杂长句句法分析的困难,通过分析标点符号在长句构成上的作用和规律,针对长句提出了一种分层的句法分析方法。该方法把标点符号分为分割标点和普通标点两类,根据分割标点将复杂长句分割为句子单元序列独立进行第一级分析,然后把第一级分析得到的结果作为第二级分析的输入,最终输出结果为完整的句法分析树。另外,通过提取含有所有两类标点符号的文法规则,在一定程度上帮助了句法结构歧义的消解。实验证明该算法大大降低了长句分析的时间复杂度,并且比传统的一遍搜索方法的正确率和召回率均提高了7%。 3.在歧义消解模型方面,在传统的概率上下文无关文法(PCFG)模型的基础上,提出了一个包含内部成分结构信息的PCFG模型,并进一步引入中心词信息,得到包含内部结构成分信息和中心词信息的词汇化PCFG模型。并且,本文提出了根据内部成分结构标记确定中心词的方法,此方法比传统的中心词确定方法具有更高的正确性和直观性。
其他文献
近年来,随着模式识别技术在各个科技领域中显得格外重要,作为模式识别技术的关键环节——特征提取技术,也受到了越来越多研究学者的关注。科技信息的进步伴随着收集到的信息量的
现场总线技术是计算机技术、通信技术和控制技术发展的产物,它通过标准化的数字通信链路将现场智能化装置与远程监控计算机连接起来,实现了数据传输与信息共享,形成全新的控
本文着重研究了一种基于PIC18系列微控制器的嵌入式实时操作系统(Embedded RTOS)的设计和实现方法。该系统以Microchip公司生产的高性能的PIC18系列微控制器为硬件实现平台。
航道的正确标识——航标是船舶航运安全的重要保障。随着水路航运系统的不断发展,构建一个能对航道航标进行远程监控和管理的智能航标监控系统对于提高助航的准确性、安全性和
现场总线在目前的工控领域得到越来越广泛的应用,PROFIBUS更是在我国得到了长足的发展,越来越多的厂商采用PROFIBUS总线技术作为工厂的底层工业控制系统。为使我们能够完全的掌
近几年来,足球机器人系统已成为人工智能和智能控制领域的热点研究课题之一。随着研究的深入,人们越来越认识到足球机器人小车控制器在整个机器人中的重要作用。本文以MiroSo
本论文设计了一种基于PC总线的实验锅炉控制系统,该控制系统在实验教学中起着十分重要的作用。本文首先对高校实验控制系统的现状及其发展状况进行了说明,提出了实验锅炉控制系
优化控制作为系统控制理论及系统工程的重要组成部分,受到越来越多控制及系统工程科学家的关注。优化控制理论是提高系统鲁棒性的有效途径之一。近二十年来,该控制理论取得了蓬
随着集成电路的飞速发展,对半导体器件的计算机模拟变得越来越重要。传统的计算机模拟主要是采用数值算法。 本文提出了一种半导体器件模拟的新方法,这种新方法将Adomian
随着大规模集成电路技术、超大规模集成电路技术的发展,特别是微处理器的出现和广泛应用,包装机械的控制技术有了突飞猛进的发展。控制技术的发展成为推动包装机械功能提高的