论文部分内容阅读
随着近年来Web2.0技术和社交媒体的快速发展,网络中出现大量的产品意见文本。同正规的新闻文本相比,产品意见文本书写自由,存在大量的错别字、标点误用和谐音等病态输入现象,由于这些不规范的语言行为的存在,严重影响了后续的意见挖掘工作的效果。如何去掉这些非正规描述或噪声信息已成为产品意见文本分析亟待解决的一个重要课题。本文在深入分析汉语产品意见文本特点的基础上,在统计方法框架下,从标点符号和错别字校对两个方面探索汉语意见文本校对问题,以提高意见文本的可读性和规范性,进而为后续的意见挖掘打下良好的基础。具体地,本文的主要工作包括以下两个方面:(1)针对产品意见文本中存在的标点错误,本文在融合多级别语言特征进行CRF序列标注的基础之上,融合原文标点信息,设计并实现一个基于标点位置预测的三阶段的汉语标点校对系统。实验结果表明,引入原文标点信息有利于标点纠错性能的提高。(2)针对产品意见文本中存在的错别字,本文深入分析了错别字与其正确形式之间的潜在联系,重点探索了汉字录入过程中错别字的形成原因。在此基础上,提出了一种基于汉字‐拼音‐汉字转换的错别字纠正方法。实验结果表明,探究错别字读音上的特点对错别字校对存在积极作用。