汉语复句中基于语料统计的决策式依存句法分析方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:xiaoyawxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语句法分析是中文信息处理领域极具挑战性的课题之一。其任务主要是:根据特定的语法把给定的句子转化为词语之间彼此关联的结构形式。随着大数据与信息处理技术的发展汉语句法分析越来越广泛地应用于机器翻译、文本挖掘等领域之中。句法分析方法主要分为基于规则方法与基于统计方法两种,基于统计的方法以大规模语料库和数学模型为基础,不依赖于主观的先验知识,算法与知识相分离;本文主要使用基于语料统计的决策式依存句法分析方法。另外,汉语复句的句法分析在推导出各分句中词语之间依存关系的同时,还要兼顾复句中各分句之间的层次关系,以正确把握复句的语义,更好地应用于上层语言信息处理系统。汉语复句中词语数目较多,对汉语复句进行决策式依存句法分析时容易导致长距离右依存下的错误累加。本文首先针对这一问题提出了一种复句分治思想下的决策式依存句法分析方法:即首先对复句进行分治划分;然后提取各个分句,将复句句法分析的复杂过程转化为对其各个分句进行分析的子过程;最后整合各个分句的子结果,推导出复句的依存树。其次为了对复句进行分治处理,本文在在中文分词、词性标注与分句界定的基础上,提出了一种规则与语义相结合的层次划分模型,该模型融合了基于关系搭配的移进-规约算法与影响复句中小句关联的相关语义知识。最后,对原有基于语料统计的决策式算法作了适当改进。实验结果表明:复句分治思想下的统计决策式依存句法分析方法相比于原有的决策式Arc-eager算法,在一定程度上提高了汉语复句句法分析的准确率。
其他文献
聚类算法研究是机器学习和数据挖掘的核心研究内容,已经吸引了无数的研究者为之努力。聚类是无监督学习的代表,在聚类算法中,数据之间的相似度是根据描述对象的属性值来计算
随着工作流技术的发展,工作流系统在企业的运作中起着越来越重要的作用。在工作流技术中,业务流程案例的平均执行时间是系统最重要的性能指标,体现着企业的运行效率。而执行业务
随着自媒体技术的迅速发展,广大互联网用户逐渐从信息的被动接收者转变为信息的生产和分享者。微博平台的迅速崛起产生了海量的文本数据,其中蕴含的信息无论是对研究还是应用
在计算机科研领域,众多科研人员都希望计算机具有人类的智能,并为此展开了研究,模式识别技术便在这种情况下产生。人类在平时生活中经常需要做出判断,这种判断对人来说再普通
学位
学位
移动互联网的飞速发展和智能设备的普及,人们的生活中都会产生大量的图像。初始阶段基于人工标注方法已经无法完成对数亿级别数量图像的标注工作,自动图像标注技术的出现很好
随着考试种类的越来越多,我们需要一种考试分析系统,将不同的考试进行分类管理和分析比较,并将分析的结果当作指导我们工作和决策的依据,这对招生考试管理机构具有十分重要的
无线传感器网络的基本思想起源于20世纪70年代,研究的重点主要放在国防项目上。在过去的几十年里,无线传感器技术取得了突飞猛进的发展,无线传感器网络的应用也已由军事领域
随着互联网规模的扩大及网络应用的递增,网络状况不断恶化,拥塞现象频频产生。为了缓解网络拥塞,需要实施一定的拥塞控制算法。当前的拥塞控制算法根据实现的TCP/IP层次可以分为
无线Mesh网络(WMN,Wireless Mesh Network)是一种新型的宽带无线网络结构。由于其自身的特点,使得这种网络形式已经开始融入到包括家庭网络、企业网、公共网络和智能传输系统