字词级中文文本自动校对的方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:gaochuwuyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据的快速增长,互联网信息质量也不断下降。但新闻出版、广播电视等部门又对文本质量有很高的要求,而这些行业的校对工作仍以人工为主,在词语、拼音、数字、符号等方面均存在或多或少的问题,因此文本的自动校对具有实际意义。本文研究字词级文本自动校对,包括文本自动查错和自动纠错两部分。文本自动查错采用联合模型,自动纠错是基于错误类型采用针对性的方法。自动查错和纠错的具体内容如下:(1)本文设计的自动查错是采用条件随机场(CRF)和n-gram散串相结合的联合查错模型,该模型首先分别使用条件随机场和n-gram散串进行文本查错;然后融合二者结果生成最终查错结果。文本查错的实验结果表明,检测层的正确率达到95.8%,识别层的正确率达到39.5%。(2)本文文本中字词级错误可以分为缺失、冗余和误代三种错误类型,针对不同的错误类型分别采用不同的方法进行纠正。其中缺失类型使用语言模型进行纠正,冗余错误采用直接删除法,误代错误采用同音词词典进行纠正,本文着重介绍基于语言模型和基于同音词词典的纠错方法。文本纠错的纠正率结果达到16.7%。本文设计并实现了文本的自动校对系统。系统分为两个模块:自动查错模块和自动纠错模块。自动查错模块包含条件随机场查错功能和n-gram散串查错功能;纠错模块包含缺失纠正功能、冗余纠正功能和误代纠正功能。
其他文献
企业内部会计控制制度发展经历了内部牵制、会计控制和企业风险管理整合框架三个阶段.企业会计内部控制发展的结果,必然是在吸收国内外先进内部控制理论的基础上,建立起完善
本设计主要对山东省沂源县毫山峪隧道浅埋段支护结构设计及紧急停车带设计方案进行方案的选择、支护设计计算、施工组织设计。根据现场的岩土工程勘察报告以及分析现场的工程
<正>思维导图最初是二十世纪六十年代英国人托尼·巴赞创造的一种笔记方法。托尼·巴赞认为,传统的草拟和笔记方法有埋没关键词、不易记忆、浪费时间和不能有效刺激大脑等四
本文从融媒体直播的特征和需求出发,分析讨论了主流在线包装技术应用,对图文在线包装系统在融媒体直播中应用的必要性进行了说明,介绍了湖北广播电视台融媒体互动直播平台概
采用调查法和测验法对计算机媒介交流在高职英语自主学习中的作用进行了实证研究。研究发现计算机媒介交流影响学习兴趣和自主学习的效果,而且短期和长期的效果有所不同,实验持
"药以食源"在我国有着悠久的历史,本文通过对大量相关文献进行分析与总结,从四个方面归纳了其在药学发展史中的独特地位以及所面临的问题.首先从食物的四气、五味、归经理论
行政法与公共道德乃是法与道德的延展与具体化,行政法与公共道德的共同调整领域与合理分工的基础是双方所具有的公共性及其相关利益与秩序。就与公共道德有关的行政法而言,行
论职业道德的时代特征陈升职业道德是道德中的一种既古老又年青的类型。由于这些道德规范与职业本身的特点密切相关,所以这些职业的特点及其社会职能不发生根本变化时,职业道德
康德虽然创立了自律论的道德哲学体系,实现了道德哲学的哥白尼革命,使道德从他律转变为自律,但却受到了黑格尔的批判。黑格尔认为道德虽然是主观意志的自我规定,但人的自我意
目的:观察评价中西医结合,以中医辨证论治为主治疗球内积血的疗效.方法:对张掖地区医院175例(185只眼)各种原因而致的球内积血,进行分期辨证论治,以观察辽效.结果:经中西医结