繁体中文拼写检错研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:tmsyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
繁体中文拼写检错指使用计算机自动检测繁体中文文本中是否存在汉字误用的技术,是中文信息处理领域的一个重要研究课题,是许多自然语言处理系统的重要部分,如搜索引擎、文字处理软件等系统。与西方常用的语言如英语相比,中文语言有更加复杂的语言特性:词与词之间没有明显的分隔符、词语搭配复杂多样、语法搭配复杂多样,所以繁体中文拼写检错的研究比英文更加困难。简体中文拼写检错的研究早于繁体中文拼写检错的研究,所形成的主要方法包括基于规则、基于统计、以及基于特征与学习的方法,然而这些方法基于简体语料库,并且无法适用于多种拼写错误的检测,因此它们仅能作为参考方法。近年来,随着繁体中文拼写检错评测的开展,繁体中文拼写检错的研究已经渐渐成为中文信息处理领域研究的热点。本文以检测繁体文本中存在的拼写错误为研究目标,提出三种有效的检错方法:(1)首先本文提出一种基于字串切分统计词典的检错方法,利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。(2)其次本文提出一种基于图模型与词性bi-gram模型的繁体中文拼写检错方法,以中文分词为基础,将分词结果和可疑词替换结果以图模型来表示,并辅以词性bi-gram模型来确定最终错误字。(3)最后本文针对常用助词“的、地、得”的错误,提出一种基于上下文词性统计模型的方法,该方法利用训练语料库建立上下文词性统计模型,并依据模型来判断助词使用是否正确。本文以繁体中文拼写评测数据集为实验数据集,对提出的三种检错方法都进行了实验验证,并与现有的检错方法进行对比,实验结果说明本文的研究方法可以取得了较好的效果,进一步地推动了繁体中文拼写检错技术的发展。
其他文献
随着计算机硬件和软件水平的迅速发展,近年来数值模拟已逐渐成为分析和解决复杂系统现象的一种重要途径。与传统的实验方法相比,数值模拟无需在实验室里进行昂贵的、耗时的、
近几年来,随着计算机技术的发展,医学领域迫切需要开发出能够模拟手术进行的虚拟手术系统,以应用于教学、培训、诊断、术前计划等多个领域。一个完整的虚拟手术系统,涉及计算
随着在线社交网络的不断发展,基于社交网络的信息传播也越来越深入和广泛。然而近年来,有组织的网络水军的出现,导致社交网络上谣言信息盛行、欺诈活动猖獗,造成巨大的社会、
种种迹象表明,全球温度正在逐渐升高,全球变暖已经成为不争的事实。这个问题已经越来越被人们所关注,而对于全球变暖的研究,也成为了世界各地科研工作者们的热点问题。本文的
近年来多视图学习引起了众多研究者的关注。在多视图学习中,数据以多个视图(或特征集)的形式来描述。使用多视图数据的一个优点是可以利用不同视图之间的互补信息和相关信息
计算机断层扫描成像技术(Computed Tomography,CT)已广泛应用于医学疾病诊断,根据CT图像,医生可以直观地了解患者身体内部器官及组织结构的细节变化,从而对患者的病情作出正
公钥密码技术是网络安全中的一项关键技术,在密钥管理、认证、数据加密以及数字签名中发挥着重要作用。传统公钥密码算法速度比较慢,特别是量子算法的提出,使得其安全性受到
随着汽车的增加,尾气污染逐渐成为城市污染的主因,尤其在一些大城市污染更为严重。要保护环境首先就需要对环境的监测。传统的监测手段缺点一是在于检测过程十分复杂且需要精度
学位
软件定义网络SDN,很好地解决了传统网络架构难以满足爆炸式增长的网络流量的问题。但随着网络规模的扩大,SDN架构中的多个控制器可能出现局部过载的情况。目前,对SDN分布式控
全球定位系统是当今世界最先进的精密卫星导航定位系统,它能提供全球覆盖的全天候高精度定位服务。论文设计的人机系统是GPS罗经的重要组成部分。   论文首先分析了GPS罗经
学位