论文部分内容阅读
随着Web的迅猛发展,网络已经成为完美交流意见、发表观点和展现个性的平台。当今大量用户在微博、论坛、购物网等平台上表达自己的观点和意见,具有强烈的情感倾向性。如何更为高效的挖掘出这些观点,并识别出这些观点的倾向性是目前自然语言领域研究的重点和热点。文本倾向性分析作为解决这一问题的关键技术,主要是指针对用户对某个事物的态度、看法、评论进行文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极、正面或反面意见。文本倾向性分析在市场预测分析、民意调查、智能导购、大众评论、影视评价等诸多领域有着广阔的应用空间和发展前景。本文总结了最近几年的国内外研究进展状况,分析了目前文本倾向性分析所面临的问题并提出了本文的研究思路。在研究的过程中,对其中涉及到的关键技术做了详细的介绍,并基于这些技术针对评论文本的倾向性分析做了如下工作:第一,评价搭配识别研究。本文首先阐明了评价搭配的概念,即评价词语所修饰的评价对象之间的关系,具体表现为二元对<评价对象,评价短语>。其次,利用最大熵方法进行了评价搭配的抽取,在构造最大熵模板过程中,构建了评价词表,表中利用《同义词词典》对评价词进行了同义词归类,用评价词类别填充模板,实验结果表明,本文的方法在识别性能上和准确率上均有提高。第二,对极性词典的构建做了详细论述。本文利用统计、机器学习等方法基于大规模语料库进行了挖掘,利用搜狗实验室提供的互联网词库以及《知网》提供的正负面评价短语、正负面情感词语、《同义词词典》、《汉语褒贬义用法词典》中的提供的褒贬义词语作为参考资源构建极性词典。本文构建的词典包括基础词典、领域极性词词典、领域属性词词典、网络词典和修饰词典。本文构建的词典相对比较全面,为评论文本倾向性分析提奠定了基础。第三,提出极性计算公式。本文主要以短语级极性计算为基本计算单元,进而计算句子级的倾向性,其中包括了极性强度的计算和句子褒贬义的判断。借助于本文构建的极性词典,构建了评价短语的极性值计算公式,并且以评价短语为基本单位结合评价对象构造了句子级的极性计算。本文利用第三届文本倾向性评测大会提供的语料、谭松波提供的语料以及从网络上抓取的语料进行实验,利用三种方法进行了对比实验,结果表明本文提出的方法从准确率上均高于其他两种方法,达到了预期的效果。