论文部分内容阅读
随着计算机和互联网技术的迅猛发展,网络已经成为人们获取信息的不可或缺的重要来源。自互联网进入Web2.0时代以来,网民越来越习惯将网络作为自己表达观点、想法、态度的平台,而不只是被动的接受网站所发布的信息。由于大量的用户参与到信息的产生,网络信息的内容形式也变得越来越多样化,大量的具有个人观点性的内容充斥着网络。而这些观点对于电子商务、网络信息安全、网络舆情等方面具有非常重要的意义。文本倾向性分析是指通过采集、组织和分析这些文本中的市场、观点、看法、态度、情绪等主观信息,从而对文本的情感倾向做出褒贬判断。这一技术可以广泛的应用于商品评论分析、微博态度分析、社会舆情分析、问答分析与评价等多个方面。本论文以互联网信息中的评论文本为研究基础,利用信息采集、文本处理技术、借助于数据挖掘、计算语言学等领域的理论与方法,以领域应用为研究对象,开展文本倾向性的建模、分析与计算研究,探索文本倾向性分析的新技术与新方法,将其应用于特定领域,并取得良好的效果。本文主要包括以下几个方面:首先,本文介绍了文本倾向性分析的研究背景及意义,国内外研究现状,并阐述了网络信息文本倾向性分析的流程及其中的关键技术。其次系统的介绍了文本分类的相关知识,并研究分析了基于统计和基于语义两种文本倾向性分析的办法,并对这两种主要的文本倾向性分析办法进行优缺点总结。然后在此基础上提出了基于模式抽取和匹配基础上的文本分类算法,并使用两个公开的语料库:中文情感评测语料COAE以及中文情感挖掘语料ChnSentiCorp对算法进行测评,该算法在保持较高性能的同时获得了一个比较理想的准确率。接着对提出的算法进行技术实现并通过对当当网的图书评论、新浪微博利比亚事件、新浪博客利比亚事件、外交部例行记者会实录问答数据进行文本倾向性分析,挖掘出评论内容的长短与情感倾向之间的关系,以及随着时间的变化网民对同一个事件的态度转变。最后,对本文的研究工作进行总结,提出了今后进一步的研究方向。