中文文本自动校对系统

被引量 : 17次 | 上传用户:ji1ji2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和信息技术的发展,统计自然语言处理技术也得到快速发展,取得了骄人的成就。电子文本自动校对的需求使得文本自动校对研究应运而生,它是自然语言处理领域重要课题。中文文本自动校对分为自动查错和自动纠错两个步骤,针对这两方面本文做了以下工作:(1)中文同音词的局部校对中文文本错误类型多种多样,本文在详细分析每种类型的特点的基础上并且结合实际发现同音词错误占了很大的比例,因此针对同音词校对做了一些工作。首先运用最简单的n-gram模型——二元模型;再结合二元模型和上下文语境;通过分析实验结果分析,在此基础上本文提出了利用语境同义词泛化的方法,改善了数据稀疏的问题,提高了系统性能。最后用真实测试文本进行测试,召回率达81.2%,准确率73.4%,纠正率88.9%。(2)中文同音词的长距离校对针对运用局部特征无法自动识别和纠正的错误,本文利用了中文固定搭配来校对这类错误。首先根据语料自动获取搭配,这是长距离校对的基础资源,校对时提取待校对文本的搭配信息,根据训练的搭配资源计算搭配支持度,比较混淆集所有词的支持度大小判断原文是否出错,并给出支持度最大的两个作为纠错意见。(3)非词错误校对本文还对非词错误的校对进行了研究。这里只针对长词错误,包括四字词、五字词、六字词,也就是常见的成语类错误。“非词”错误其实英文文本校对中的概念,本文中的“非词”是对完整正确的长词而言的,而不是汉字。针对这个问题的校对,本文采用构造错词集的方法,通过词典和大规模语料模糊匹配出“正确词错词”的组合,校对时若文本匹配到错词,系统就能给出其正确的词。试验中利用这个方法校对了高中生的作文,效果较明显。最后本文搭建了一个文本自动校对系统,主要校对上述两种错误。通过真实数据测试指出了系统的不足以及今后需要研究改进的地方。
其他文献
在数字通信、图像处理等应用领域中需要用到大量的矩阵乘法运算,并且它的计算性能是影响系统性能的关键因素.设计了一个全流水结构的并行双精度浮点矩阵乘法器以提高计算性能
为了提高副干酪乳杆菌(Lactobacillus paracasei)HD wy-1细菌素的分离纯化得率和活性。本研究主要利用三步法从副干酪乳杆菌HD wy-1发酵液中分离纯化得到抑菌物质副干酪乳杆
随着市场经济的迅速发展,社会经济组织结构日趋多元化,市场活动日趋复杂化,进入了分工与专业化程度日益提高的时代。经济环境的变化推动了税收管理对象的变化。企业数量与规
随着经济的高速发展以及各种新技术领域的不断扩大,管材的应用范围越来越广,同时其质量要求也越来越高。冷轧是当前用于精密管材加工生产的重要方式,而异形变断面轧辊是冷轧
薛砺若《宋词通论》说:“中国词学自南宋中末期一直到清代的终了,可以说完全是‘姜夔的时期’。”为什么不是苏辛,不是周吴,也不是李清照,而是姜夔得到封建社会后期七百年间士大夫
魏晋南北朝在诗歌发展过程中处于承上启下的重要阶段,尤其是南朝。南朝社会声色大开,玄风消退,佛教兴盛。人们怡情山水、安于享乐,在文坛上追求新变。竞技、消遣文风席卷整个
论文以广州珠江新城核心区地下综合交通系统为研究对象,分析其发展历程,整理总结其设计实施成果,并对成果进行评价。文中主要通过时间和空间两条线索,在不同的尺度和方面进行
随着地球上众多不可再生能源的过度开采和利用,使得能源问题成为当今世界需首要解决的问题之一。太阳能相比化石能源,其充足的供给和清洁环保等优势使其在近些年来被越来越广
数学中指数是次方的表现形式。在艺术品市场中,指数则是根据具体目的、诉求,数字化、系统化的阐释艺术品市场的发展趋势及变化规律。随着艺术品市场的规范化、科学化、专业化
目的:调查山西省妇幼保健院产妇孕期的营养及认知现状,分析对妊娠结局的影响。为医院有针对性地开展预防干预措施提供理论依据,达到促进孕妇营养合理、提高妊娠期妇女的生命