基于词汇化统计模型的汉语句法分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:suwenyin52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、信息获取、自动文摘等都要依赖句法分析的精确结果才能最终获得满意的解决。另一方面,语言是思维的载体,对自然语言句法分析的研究有助于研究人类思维的本质,因此对自然语言句法分析的研究具有重要的理论和实用价值及深刻的哲学意义。总体上来看,由于起步较晚、树库资源缺乏等原因,汉语句法分析技术不如英语句法分析技术发展的迅速。目前的汉语句法分析技术还满足不了各种中文信息处理系统的要求,所以对汉语句法分析的研究既意义重大又任重道远。目前的主流技术还是基于统计的方法,本文主要研究统计框架下汉语句法分析问题。本文工作分四个部分进行,具体内容如下:1、对句子进行词性标注是句法分析的一个重要环节。本文提出一种基于二元同现的汉语词性标注模型。在隐马尔可夫模型的基础上,引入二元词汇信息来加强词性标注模型的歧义消解能力。该方法具有简单、快速、有效的特点。2、统计句法分析的基本理论是构建基于统计句法分析模型的基础,已有的典型句法分析模型是汉语句法分析建模的经验来源和参照目标。本文率先在宾州中文树库5.0上应用中心驱动模型进行汉语句法分析实验,取得了比较成功的效果,验证了应用词汇化统计模型进行汉语句法分析的可行性。3、提出了一个两级中文句法分析方法。根据我们定义的30种短语类型,提出了一个分治策略:即把所有的短语分为基本短语和复杂短语,针对两种短语的语言特点,采用不同的模型来识别它们。首先,把基本短语识别转化为最佳边界标记序列的搜索问题,提出一个基于马尔可夫模型的基本短语识别方法。在此基础上,识别汉语复杂短语。实验结果表明,两级中文句法分析方法一方面可以显著提高句法分析系统的精确率和召回率,另一方面还有效降低了句法分析的复杂度,使系统处理文本的速度得到了提高。4、提出了一种基于语义类的汉语句法分析方法。该方法以中心驱动模型为基础,把自动获取的语义类融入到句法分析模型中,为消解句法歧义提供语义类信息。利用一部语义词典,应用最小描述长度原理,自动地为句法分析模型确定一个粒度在词性与词汇之间的语义类。实验结果表明:与词汇信
其他文献
论述了民口配套三级公司保密管理体系的建设,描述了公司保密体系建设的三个阶段,着重阐述了公司保密管理体系建设的准备和实施阶段,以及在保密制度、涉密人员和设备设施等三
目的:基于现有基层卫生人才统计年鉴,分析并解决基层卫生技术人才匮乏问题,加强基层卫生人才队伍的建设。方法:对2009-2017年基层卫生人才的构成情况、基层卫生人才的学历以
<正> 卡拉OK减肥法日本人谈起“发福”大都会面色大变,许多人或者尝试“节食”减肥法,或者特意爬楼梯上班,为的是多给自己一个减肥的机会。日本有一家公司别出心裁,乘机发起
计算机视觉和图像处理的许多问题,例如,图像的分割、增强、跟踪等经常表现为病态问题。数学上通过能量度量最小化把这些问题转化成变量或函数的最优化问题。经变分方法导出图像
我国现行的医疗纠纷的解决途径主要是《医疗事故处理条例》中所提出的自行协商、行政调解和法院诉讼三种。尽管步入了法制轨道,但由于设计上的缺陷,这些途径并未得到有效运用。
高职学生作为高等技术应用型和高技能型专门人才;在行为上有其独特性和规律性。本文通过发放调查问卷的方式,就高职学生体育锻炼的行为取向进行调查分析,从而指导高职学生体育锻
目的:观察文拉法辛对卒中后抑郁患者认知功能障碍的改善情况及其安全性。方法选取本院神经内科收治的卒中后抑郁并认知功能障碍的患者72例,按照随机数字表法将其分为观察组和对
生物特征识别是利用人独特的生理与行为特征来进行自动身份鉴别的技术,是解决社会信息化、数字化、网络化发展中安全问题的首选方案。多模态生物特征识别利用多种生物特征,可以
<正>延续护理(continuing care)是指通过一系列的行动设计用以确保患者在同一或不同的健康照顾场所受到不同水平的协作性与延续性的照护[1]。它作为医院护理的延伸和拓展,具
粒子群优化算法(Particle Swarm Optimization)起源于对鸟群、鱼群以及对某些社会行为的模拟,是一种基于群体智能的进化计算技术。而小生境技术则起源于遗传算法,这种方法能使