基于N—gram及依存分析的中文自动校对研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:wangtao7897
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动校对是一项无论在实际应用还是在科学研究中都十分重要的工作.该文全面调研了现阶段国内外文本自动校对研究的现状.国外在英文自动校对方面的研究较为成熟,目前已经达到实用化的阶段;而由于语言的差异,中文的自动校对存在许多困难.现阶段国内关于自动校对的研究多使用基于规则和小规模统计的方法,该文在大规模的真实语料的基础上,进行了统计建模的研究工作,并将依存语法分析应用于自动校对,得出一个较好的中文自动校对模型.该文以大规模的语料作为训练集,构建了四个n-gram模型,在六万句的测试集上,分别对这四个模型进行校对实验,实验结果表明,对中文自动校对问题,字的三元模型效果最好,它能查出文本中大多数的局部错误,F值为63%.然后,该文将依存文法分析应用于自动校对中,由于依存文法能够表示出句子中各个结构之间的支配与被支配关系,从整体上描述了句子的结构关系,所以能够查找出文本中的远距离搭配错误,补充了n元语法模型的不足,使校对的召回率提高了约6个百分点.随后,该文应用模糊匹配的方法实验了自动提供候选词的工作.在系统的实现中,该文根据文本错误的特点,对句子中的散串进行了特殊处理,提高了系统校对的准确率.最后,该文将这三种方法融合在一起,组成一个实验效果达到最佳的校对系统,对真实文该的测试中,系统的F值为62.5%,高出Microsoft Word十个百分点.由此可以看出,基于三元字模型的局部错误查找结合基于依存分析的全局错误查找,再加上散串处理,是一个很好的校对模型,可有效的查出文本中的多数错误.另外,该文将依存文法分析应用于中文自动校对中,对促进自动校对的研究工作以及推进依存文法在对自然语言处理方面的应用会产生一定的积极作用.
其他文献
状态非平稳信号是故障诊断的重要依据,在状态监测中是远未成熟的关键问题.状态非平稳信号可以表征某些故障的存在,表征它的特征量也会发生变化,因此只要故障源存在,这种故障
该文旨在为组件装配系统设计一个具有良好结构的组件动态装配模型,体现目前的组件动态装配系统的组成、结构、特点及其运行机制.该文提出了一个基于多Agent的组件动态装配模
该文首先阐述对应用软件的全面认识,讨论了对应用软件的工业化生产方法的研究,介绍了"以过程建模为先导、以构架为中心、基于构件组装"的企事业MIS系统构件化开发方法和生产
该文重点对粗糙集理论中信息系统约简问题进行了研究,指出了数据预处理中常用算法在使用中存在的问题,提出应对办法;现有的几种属性的约简算法在找最优解方面还有不足,通过例
Webservice是描述了可以通过标准化的XML消息从网络访问的一组操作的接口。由于接口屏蔽了这些操作的具体实现细节,无论这些操作是在什么样的软硬件平台上、使用什么样的编程
本文在分析和总结现有桥梁健康监测系统发展的成果基础上,结合具体工程项目实施目标,对桥梁结构健康监测和安全评估进行系统的研究,确定桥梁健康监测的具体内容,实现了整个系统架
在当前计算机网络技术发展水平的基础之上,企业对应用计算机进行商务活动提出了新的标准,一方面应考虑到电子商务平台的先进性,另一方面,要使企业现有的商务工作系统能较平滑地嵌
该文引入了CRM SA,对北京公交抢修救援服务进行业务流程重组,设计抢修救援服务自动化的业务流程.CRM是一种以客户为中心的管理系统,而SA作为CRM的主要内容,其目标是以信息技
云计算提供了巨大的数据存储容量和高效的数据处理能力,从而减轻了数据用户的负担,为互联网上的客户提供了便利。它可以将数据库和应用软件从数据拥有者转移到云端,从而在云端管
特征造型技术是面向制造全过程的,是CAD发展的一个重要里程碑,它使CAD/CAPP/CAM的真正集成化成为可能,为解决产品从设计到制造的一系列问题奠定了理论和技术基础。建立基于特征