机器翻译系统中英语从句的识别研究

来源 :解放军信息工程大学 | 被引量 : 2次 | 上传用户:s574751142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在英汉机器翻译系统中为了实现对各种复杂语句的正确分析,必须首先完成从句识别的任务。从句是一个至少包含一个主语和谓语并且表达一个观点的语法单元。而从句识别是指将句子按照其语法结构标注出从句层次的过程,它隶属于浅层句法分析的范畴。浅层句法分析的主要任务是语块的识别和分析,它使句法分析的任务在某种程度上得到简化,也是对句子进一步分析的基础。 在自然语言处理中,特征模板选择的是否合适、特征表示的是否恰当都会给标注带来很大的影响,所以本文通过学习优秀模型的特征模板,结合本文模型的特点,提出了用词汇特征、句子特征描述语法规则的方法。实验证明,这种特征描述方式是十分有效的,尤其是在从句句尾识别中作用更加明显。 本文采用基于最大熵原理和基于Bagging算法的两种方法来完成从句识别。首先,在基于最大熵原理的方法中,将整个从句识别任务分为:从句句首识别、从句句尾识别和完整从句识别三部分。其中第三部分比较复杂,因此又分成:多重判别、生成从句候选集和从句标注三个模块。对于前两部分和第三部分中的多重判别模块、生成从句候选集模块都可以看作是普通的分类问题,均需要经过选择特征模板、训练模型、测试三个阶段。另外,通过分析句子规律以及人分析从句的思维过程,本文提出了通过距离矩阵等获取从句矩阵的从句候选对象提取算法。其次,在最大熵模型的基础之上,本文又提出了基于Bagging算法的从句识别方法。它利用Bootstrap思想获得多个不同的训练集,然后分别训练出识别模型并测试,最后用改进的加权求和法集成各分类器的结果得到最终标注结果。实验结果表明:在本文提出的特征前提下,文中的两种方法与HMM、Memory-Based等方法相比具有更高的识别率;并且基于Bagging算法的从句识别方法较基于最大熵原理的方法相比,识别率有一定提高。 另外,本文还针对样本选择、最大熵的平滑问题和Bagging算法中的一些具体参数进行了实验,并且根据实验结果确定了模型取最佳结果时的一系列参数。
其他文献
3月31日,广东省人民医院、广东省心血管病研究所专家黄劲松主任的团队在短短的时间里完成了高难度的'换心手术',终末期心衰患者张叔叔的生命也迎来了崭新的篇章。本
严复(1854-1921)是中国近代著名翻译家,翻译理论家和启蒙思想家。他提出的“信达雅”翻译标准在中国翻译理论史上占有极为重要的地位,他翻译的《天演论》激发了国人的民族民主
在日常言语交际中,人们的言语并非总是完整而精确的,经常出现言语信息缺失的现象,说话者放弃完全句而积极选择半截话形成语义语法空位,这种现象的出现是交际主体基于交际意图
创新驱动发展战略已经成为我国当今重点实施战略,科技创新在全面创新整体中具有引导作用。中小企业对国民经济发展具有重要影响,在技术创新发展中具有关键作用。但由于中小企
荔枝是我国广东省盛产的佳果。市场上保藏采后荔枝的方法主要采用冷藏,荔枝果皮薄,冷藏期间易受冷害,冷藏荔枝转常温货架存放时特别易发生褐变和霉烂,严重制约了荔枝产业的发
“标题党”是指在新闻传播尤其是在网络新闻传播过程中,为了提高点击率、“夺人眼球”,利用歪曲、夸张、怪异、唬人等各种极端手法制作而成的具有误导性、欺骗性的标题,其突出特
目的观察益气养阴汤联合常规西药治疗早期糖尿病肾病临床疗效。方法将88例患者随机分为2组,对照组给予常规西药治疗,治疗组在对照组的基础上给予益气养阴汤治疗,评价2组的治
当前隐喻研究涉及到各个领域,其中空间隐喻研究是近来隐喻研究的焦点之一。空间隐喻以空间域为始源域,将空间域的意象图式结构映射到非空间的、抽象域之上,使我们通过空间概念来
“一带一路”建设对跨文化人才产生了新的需求.以“一带一路”建设的人才需求为基本导向,建立科学、精准的跨文化人才培养体系,使更多优秀的跨文化人才参与到对外交流中,有利
一、问题的提出高中化学《物质结构与性质》是高考化学中的选考内容,其中以“面心立方最密堆积”作为考查的载体在高考试题中经常出现,金属堆积方式的学习需要学生具有较好的