中文拼写检错和纠错算法的优化及实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lezhe14790511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,越来越多的行业在工作或生活中使用计算机和电子文档等进行沟通和协作。中文拼写检错和纠错是保证沟通和协作过程中正确性的重要技术,是检验中文是否存在拼写错误并给出正确建议字的重要工具和中文自然语言处理研究领域中的重要课题。中文拼写纠错的应用领域十分广泛,如中文输入法、手写体识别、文档编辑、搜索引擎和问答系统等等。由于中文自然语言处理的起步较晚,多音、形近,以字为单位的中文特点导致中文拼写纠错难度较大,所以中文拼写纠错的精度一直较低。在前人的基础上,提出了新的检错和纠错算法。提出了基于N元语言模型和中文分词的中文拼写检错算法以及基于加权噪声信道模型的中文拼写纠错算法。经过详细的调查,总结了中文拼写错误的多种错误类型和成因,并设计和实现了一个用于拼写检错和纠错的框架。将中文文本进行基于字的N元切分并统计概率,结合混淆集,提出了基于N元概率的检错算法。将两者结合并引入N元语言模型;将噪声信道模型、字频概率和字与字拼音之间的最小编辑距离结合,提出了基于加权噪声信道模型的中文拼写纠错算法。为了寻找最优的参数集合和解码速度,实现了多种平滑方法的N元语言模型框架和Beam Search解码算法。对提出的多种中文拼写检错算法和中文拼写纠错算法在相同的测试数据集上做了实验。经过实验数据的对比和分析发现,提出的中文拼写检错算法在准确率、精确率和F1值上具有一定的优越性。提出的基于加权噪声信道模型的纠错算法在准确率、召回率和F1值上具有一定的优越性。为该领域提供了一定的参考和借鉴以及进一步推动了相关领域技术的进一步发展。
其他文献
2014年10月,中国共产党十八届四中全会提出全面推进依法治国的方略,明确要求制定《中国民法典》,2015年4月《中国民法典?总则》草案向全社会征求意见。《继承法》是《中国民
高职院校承担着为社会培养创新型技术人才的责任,急需增加动手操作类实验课程的设计。皂化反应是生物化学、有机化学课程中,与油脂皂化、制皂工艺相关的内容,实验条件要求适
目的:探讨痉挛型脑瘫儿童的异常运动模式(协同运动)情况以及异常步态的机制。方法:采用高密度阵列式表面肌电技术结合平滑非线性能量算子(SNEO)算法,对脑瘫儿童的异常运动模
会议
进入7月,小麦收割、玉米播种,新一轮播种季节来临。今年上半年复合肥市场表现不佳,无论是肥料价格、市场启动、销售进程都比较平淡,相对于去年同期,今年的出厂价有150-200元/吨的下
对矿大文昌校区西门交叉口的交通路况和公交站台设置进行实地观测,分析得出该地区整体交通设计规划不合理是导致交通混乱的根本性原因。在已有建设方案的基础上,提出新的交叉
我县开佛乡现有近万亩梨园,果农每年收获梨子后,梨园基本没有再充分利用.为提高梨园的经济效益,增加果农经济收入,我们引进日本鬼怒甘良种草莓,利用梨树林下遮阴保湿的天然小
匹兹堡器官恢复与教育中心位于宾夕法尼亚州匹兹堡市,是一家非营利性器官获取机构,覆盖居民550万人口,是“医疗补助保险”和“医疗照顾保险”服务中心指定的58个独立的非营利
结合实际工程案例针对贝克曼梁法测回弹弯沉测试中可能存在的问题及原因进行了分析与探讨。针对非标准测试车所测的弯沉结果,建立了修正系数的计算公式;分析了规范性文件确定
苏哈托时代提出印尼军队"双重职能"理论,这一理论指印尼军队负有军事与政治的双重职责。苏哈托倒台后,印尼社会各界要求对军队改革的呼声日益高涨,而军队"双重职能"就是改革
家住峨眉山市川主乡兴容村三组的杨启华,今年33岁,他初中毕业回到交通闭塞、经济落后的家乡,胸怀满腔热血,立下了扎根山区、依山兴村、科技增收、勤劳致富的雄心壮志,经过数