论文部分内容阅读
随着政务信息化的逐步推进,越来越多的服务和信息可以在政府网站中获取。政府网站的公开信息旨在向群众传达及时、准确、权威的消息,但随着公开信息量的急速增长,电子文本中不可避免的会出现编辑者容易忽略的错误。由于政府网站中的公开信息对准确性的高要求,利用计算机进行文本辅助校对成为一种迫切的需求。近些年中文文本校对在问答、社交和意见文本等领域做了针对性的研究,在政府网站文本上还存在着缺失。基于中文文本校对在政府网站文本中研究的缺失,本文采用自然语言处理技术,从统计和机器学习的角度对政府网站文本校对关键技术进行了深入的研究。通过分析中文文本一般错误类型,结合政府网站文本的文本特征,确定研究范围为基于同音字词替换产生的词语级错误和短距离上下文搭配错误。词语级错误,也称为“非多字词错误”;短距离上下文搭配错误,也称为“真多字词错误”。针对这两类错误,从文本校对的查错和纠错两方面入手研究。本文在跟进已有的研究成果的基础上从统计和机器学习的角度对其进行了以下三方面的研究:1.“非多字词错误”:在实现传统的基于词典的校对方案基础上,通过分析多组实例,发现含“非多词错误”的句子在分词阶段,其错误词语有较大概率被分为单字散串。针对此规律,提出散串合并算法以提高查错率进而提升整体的纠错率。通过实验验证散串合并算法在原方案基础上提升了6%的查错率和3.1%的纠错率。2.“真多字词错误”:在查错端采用传统的N元语法模型结合阈值进行查错。在纠错端根据错误搭配与正确搭配拥有相同拼音串的特征,提出基于HMM(Hidden Markov Model)模型的纠错方案。根据用户键入时多以词键入的特征,提出在纠错端采用基于词的有向无环图模型的纠错方案。基于HMM模型和基于词的有向无环图模型的纠错方案在测试集分别获得65.46%和53.19%的纠错率。3.基于循环神经网络的文本校对研究:利用基于LSTM(Long Short Term Memory networks)的序列解码模型,对文本校对问题进行建模。利用LSTM的长效记忆的特点充分获取句子的语义信息,再利用序列解码模型,实现从错句到正句的校对。最后通过大量的对比实验验证了本文所提算法和创新方案的可行性。