基于笔形相似的文本校对算法及其接口原型系统的研究

来源 :东北师范大学 | 被引量 : 13次 | 上传用户:aaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本自动校对,属于自然语言处理的应用基础研究范畴,其目的是要实现一个能达到一定校对目标的人机交互式计算机辅助校对系统。自上世纪90年代以来,出版业电子化迅猛发展、办公及日常文档处理的数字化迅速普及,这就要求人们在短时间内处理大量的电子文档,而处理过程中难免出现错误。因此电子文档的校对任务越来越重,中文文本自动校对成为一项亟待解决的研究课题。近年来不少研究者已经在文本自动分词、上下文依存分析、文本语义分析、查错纠错模型的构建等方面做了不少研究,但由于汉语理论研究的局限性和汉语言本身的特点,现有系统的整体性能离实际需求还有相当大的差距。不同的输入途径造成文本的错误也是不同的。拼音输入、语音输入导致了发音近似错误的发生,而笔型输入、OCR技术则导致了外形相近或相似错误的发生。近年来,OCR技术日渐成熟,目前的OCR识别系统对印刷体文本的正确识别率理论值可达97%左右。随着识别正确率的提高,人们对OCR识别软件的使用频率会越来越高,然而在实际识别中由于汉字字形变化剧烈,待识别文本图像噪声干扰严重等因素,汉字识别的正确率会有所降低。而OCR识别导致的主要错误就是形近或者形似错误,因此,如何对该类错误进行文本自动校对是一个必须解决的问题。本文在调研了国内外相关的自动校对研究之后,结合汉语的实际情况,充分分析了人在识别汉字形似字的常规思路,提出了基于笔形相似的文本校对算法。算法执行过程就是对人识别形似字过程的模拟:当系统根据用户当前操作判定该处文本可能错误时,系统即启动“查找疑似形近字→疑似词组反查→纠错建议给出”的操作,辅助用户进行文本校对。MS Word是目前应用最为广泛的文档编辑处理程序,本文基于微软最新推出的VSTO 2005 SE平台,实现了MS Word 2003环境下的基于笔形相似的中文文本自动校对原型系统,并完成了部分相关实验。实验表明该算法能够对形似字错误给出有效的纠错建议,实验原型系统接口的设计能够极大程度的方便用户修改文档中的错误,提高用户的校对效率。
其他文献
舌诊是望诊的主要内容之一,最具有中医特色的传统诊断方法。舌像也是反映人体生理功能和病理变化最敏感的指标,在中医诊疗疾病过程中具有重要的应用价值。近十年随着信息技术
以太网光纤通道(Fiber Channel over Ethernet,FCoE)旨在通过以太网直接传输光纤通道协议,让存储网络中的数据可轻易跨越光纤通道和以太网的界限,通过同一以太网络物理介质进
随着我国公路基础设施建设投资规模的加大,高等级公路设施检测养护工作将越趋繁重。为解决目前高等级公路设施检测养护工作主要由人工完成且费时、费力、效率低等问题,对公路及
随着Internet应用和IP网络技术的发展,IP网络已经从数据类型单一的网络向集成文本、语音、视频、图像的多业务网络转变。传统的IP网络技术已经不能满足复杂多样的服务质量需
随着计算机技术的发展和网络的广泛应用,大多数企业都通过内部网络作为信息管理和数据传输的平台。内部网络在提高企业运行效率的同时,也为企业内部带来了安全隐患。研究表明
闪存是一种可电擦除编程的只读存储器(EEPROM),由于具有非挥发性(掉电时内容不会丢失)、高密度、低功耗及抗震等优点,闪存成为嵌入式系统中磁盘存储设备的理想替代器件,如掌上电
随着IT行业的迅猛发展,使用IT支持系统的企业不断增加,高效快速的应用网络资源开始成为降低各行业管理运作成本的主要途径。在这种环境下,以共享网络资源为目的的Web Service技
近年,随着通信技术的发展、移动设备的普及以及云计算技术的出现,互联网中的数据呈现出爆炸式的增长,信息技术正迈入大数据时代。数据挖掘技术,是大数据领域的研究热点之一,
随着Internet规模的迅速增长,网上的信息资源也随之迅速增长。WWW资源的迅速膨胀固然得益于其内在的分布性、开放性和异构性,但也正是因为这一点,使得用户在网上迅速、准确地获
本文对基于UML状态图的测试用例自动生成方法进行了比较完整、系统的研究,它是一种针对面向对象软件的类或类簇级测试。下面从几个方面来介绍本文的主要研究内容: 分析了在