中文真词错误自动校对方法研究

来源 :江苏科技大学 | 被引量 : 17次 | 上传用户:meishan802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息处理技术的飞速发展,电子书、电子报纸、电子邮件等电子文本已成为人们日常生活的一部分,同时文本错误也越来越多。中文文本错误分为真词错误和非词错误。其中,真词错误指中文文本中的一个词用错成另一个词,本文主要研究中文真词错误的自动校对方法。目前,研究人员对真词错误只是停留在查错阶段,并且利用的特征相对比较简单,使用的模型也过于单一,查错的准确率和召回率都比较低,误报率特别高。本文通过对真词错误的分析,提出基于真词混淆集、上下文特征泛化、统计模型与搭配相结合的真词错误自动校对方法,具体的研究内容包括:(1)中文文本错误原因和错误类型分析是研究中文文本错误校对的前提,中文文本的错误的类型很多,不同的角度有不同的分类,很多错误都是由于汉字的替换、丢失以及误输入而导致的,本文对中文文本中的错误进行分析和归类;(2)中文文本真词错误识别需要大量的语言学知识、统计学知识等知识和资源,本文对所需资源的表示方法和构建方法进行了研究,其中包括真词混淆集、词N-gram模型、搭配知识库;(3)本文提出一种基于真词混淆集、统计模型、上下文特征泛化和搭配的中文真词错误自动校对方法。该方法不仅考虑了局部上下文特征,还采用不受长距离限制的搭配特征,并且有效缓解了数据稀疏问题。本文提出的基于统计模型、上下文特征泛化、搭配特征的真词错误自动校对方法取得88%的召回率、76%的查错准确率和70%的纠错准确率。本文提出的真词错误自动校对方法不仅有效地对文本中的局部错误和全局错误进行校对,而且是集查错和纠错于一体的方法。
其他文献
数字签名技术是密码学应用的重要分支之一,数字签名技术在电子商务、电子政务以及网络身份认证等方面有着广泛的用途。它通过在原始的信息上附加额外的信息来提供一种数字认
作为一种新兴的测高技术,全球卫星导航系统反射信号的应用(GNSS-R)因其成本低廉,拥有多无偿信号源,具备全天候,宽区域覆盖等特点,自上世纪90年代初以来就引起了世界多国研究
任意波形发生器是一种用于产生各种数据信号的仪器,作为仿真、激励的信号源广泛用于电子电路、工业控制、科学研究以及系统的测试中。随着电子测量领域的发展以及仪器控制技术
随着遥感技术向高分辨率、广覆盖方向的发展,遥感图像的数据量持续增长,迫切要求与获取速度相适应的管理和理解能力。遥感图像的语义自动标注是大规模遥感图像数据管理、理解的关键。采用信息技术自动获取遥感图像的语义词,有助于用户直观理解图像内容,完成海量遥感图像数据的高效管理。现有标注方法在遥感图像语义自动标注过程中存在以下挑战:(1)遥感图像的空间结构复杂、地理特征信息丰富,很多学者基于遥感图像的单一特征
图像超分辨率(Super-resolution,SR)算法试图从一个场景的一幅或者多幅低分辨率(Low-resolution,LR)图像中重构出一幅高分辨率(High-resolution,HR)图像。通过放大图像的目标
海上溢油事故是海洋中最频繁、最严重的污染灾害之一。一旦出现海上溢油事故不仅影响人们的生产生活以及人类的健康,同时也会破坏海洋的生态环境。当今用于监测海上溢油的手
随着互联网的快速发展,人们每天都需要从各个网络渠道获取文本信息资讯,因此对多来源的文本信息的处理就成了一项非常重要的工作。大部分传统的主题挖掘模型都是针对单一来源的文本数据而设计的,对于当前存在的各种文本数据源来说,由于文本数据的形态更加复杂,传统模型难以有效地应用于这种多源融合情况下的文本数据。不同来源的文本数据,在主题信息的分布上具有一定相似性,但在主题的词汇特征上又具有明显的差异性,但是传统
学位
遥感技术的出现,使我们能不与研究对象直接接触,通过传感设备来获取观察对象的基本信息。这就避免了一些偏远或险峻的地区信息无法取得的情况,成为至今为止全球范围内动态观测数据的唯一方式,被广泛应用到多个领域,对经济的增长和社会的发展起着很大的催化作用。然而,由于受天气、遥感设备及传输介质的影响,遥感图像在成像和传输的过程中,往往会受到很多噪声的影响,其中最为常见的噪声为高斯噪声、云噪声和雾噪声等。这些噪
WSN(Wireless Sensor Network)是继Internet之后的又一次信息革命,将改变人们的生活,促进生产力的发展,进一步加强信息世界与物质世界之间的联系。WSN由传感器、无线传输模块
硬件实验是计算机或其他专业硬件课程的必备教学环节,是培养学生实际动手能力、工程实践能力以及开发创新能力不可缺少的手段。随着电子设计自动化(EDA,ElectronicDesignAutoma