政府网站文本校对关键技术研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:chenjzh68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着政务信息化的逐步推进,越来越多的服务和信息可以在政府网站中获取。政府网站的公开信息旨在向群众传达及时、准确、权威的消息,但随着公开信息量的急速增长,电子文本中不可避免的会出现编辑者容易忽略的错误。由于政府网站中的公开信息对准确性的高要求,利用计算机进行文本辅助校对成为一种迫切的需求。近些年中文文本校对在问答、社交和意见文本等领域做了针对性的研究,在政府网站文本上还存在着缺失。基于中文文本校对在政府网站文本中研究的缺失,本文采用自然语言处理技术,从统计和机器学习的角度对政府网站文本校对关键技术进行了深入的研究。通过分析中文文本一般错误类型,结合政府网站文本的文本特征,确定研究范围为基于同音字词替换产生的词语级错误和短距离上下文搭配错误。词语级错误,也称为“非多字词错误”;短距离上下文搭配错误,也称为“真多字词错误”。针对这两类错误,从文本校对的查错和纠错两方面入手研究。本文在跟进已有的研究成果的基础上从统计和机器学习的角度对其进行了以下三方面的研究:1.“非多字词错误”:在实现传统的基于词典的校对方案基础上,通过分析多组实例,发现含“非多词错误”的句子在分词阶段,其错误词语有较大概率被分为单字散串。针对此规律,提出散串合并算法以提高查错率进而提升整体的纠错率。通过实验验证散串合并算法在原方案基础上提升了6%的查错率和3.1%的纠错率。2.“真多字词错误”:在查错端采用传统的N元语法模型结合阈值进行查错。在纠错端根据错误搭配与正确搭配拥有相同拼音串的特征,提出基于HMM(Hidden Markov Model)模型的纠错方案。根据用户键入时多以词键入的特征,提出在纠错端采用基于词的有向无环图模型的纠错方案。基于HMM模型和基于词的有向无环图模型的纠错方案在测试集分别获得65.46%和53.19%的纠错率。3.基于循环神经网络的文本校对研究:利用基于LSTM(Long Short Term Memory networks)的序列解码模型,对文本校对问题进行建模。利用LSTM的长效记忆的特点充分获取句子的语义信息,再利用序列解码模型,实现从错句到正句的校对。最后通过大量的对比实验验证了本文所提算法和创新方案的可行性。
其他文献
正当防卫是一种法定的违法阻却事由,但是关于其阻却违法的根据在日本刑法学界存在不同的见解,这归根到底是一个如何理解"法"的根本性问题。从刑法教义学的视点出发,首先有必
【正】 (一) 大约在四千多年以前,有一个氏族部落从中国西部迁到山东,这个部落的领导人就是大禹。中国西部地区称“夏”。春秋时郑大夫子西名夏,证明夏有西意。夏又含有雅意,
<正> 各位领导、同志们:正当全国人民认真学习党的十三届七中全会精神、满怀豪情地跨进“八五”计划第一年、喜迎我国传统节日——春节的时候,由文化部图书馆司举办的东北地
油脂氧化酸败与风味劣变、营养丧失、生物学损害、组织老化紧密相关。该文概述油脂氧化研究以自动氧化自由基链式反应学说为核心发展历程;阐述自动氧化、光敏氧化、酶促氧化
科学的项目管理可以及时掌握建筑工程施工过程中的各项因素,及时检验、发现和解决问题,确保工程的成本、进度和质量,进而保障工程的施工和使用的安全。本文从建筑工程管理机
新闻媒体作为社会公共资源,凭借自身特有的优势,在短时间内可以形成强大的"舆论风潮",甚至僭越司法职能展开声势浩大的"舆论审判"与舆论监督。新闻媒体的"舆论审判"与舆论监
光电图像处理对于设备制造自动化、人工智能、自动识别等领域具有相当重要的研究意义。随着对图像识别的分辨率要求的不断提高,图像的像素越来越高,图像大小也随之变大,导致在图
运用语料库统计学方法,对《大卫·科波菲尔》1942年翻译出版的许天虹译本和1980年出版的张谷若译本,进行译者风格对比研究,同时关注特定历史文化语境对译者风格形成的影响。
在数字资源采访中,图书馆所面临的著作权风险主要有合同风险与侵权风险两大类。合同风险包括主体是否适格、标的是否合法、许可范围是否清楚等;侵权风险分为直接侵权与间接侵
以元江蛮耗水文站1960~2000年泥沙变化为线索,结合与其相关的区域气候变化和社会经济统计资料,采用同步资料对比、传统相关分析、线性回归拟合与Granger因果关系检验等方法,