论文部分内容阅读
随着Web2.0的蓬勃发展,互联网倡导的“用户参与网站内容制造”理念已经深入人心,以博客、社交网站、微博为代表的web2.0应用吸引了大部分用户,大量用户产生的信息使得互联网信息爆炸式的增长。在这些信息中,有这样一类文本,它们包含了大量的评论性信息,是用户购买商品前作为决策的重要依据,也是商家进行用户反馈分析的重要资料。这类评论性文本的数量庞大,内容组织不规范,垃圾信息多。为了来帮助人们快速有效的对这些文本进行分析,情感分析技术应运而生。评价对象抽取利极性分析是情感分析的两个核心任务。本文对这两个基本任务的方法进行了研究,并以商品评论文本作为对象,将分析任务分为情感评价单元抽取和极性分析两部分,将商品的各个组成部分和各个属性作为特征,分析并统计商品每个特征的正面评价和负面评价数量,并最终展示给用户。本文的工作包括以下三个方面:(1)提出了一种基于GMCT的句法结构情感评价单元表示模式,并给出了相应的自动模式库构建方法。情感评价单元是商品评论的基本单元,它包括被评价对象和评价词。目前的情感评价单元抽取大多采用模式识别方法,并且使用扁平化的句法特征表示模式,用手工方法构建模式库。本文提出了一种新的基于GMCT的模式表示结构,它能够保留句法树的结构化信息,因而能更好的区分出噪声模式,得到更好的准确率。同时,本文给出了一种自动构建模式库方法,避免了费时费力的手动构建过程。(2)提出了一种基于卷积树核的近似模式匹配方法,并在此基础上给出了情感评价单元抽取算法。采用精确匹配方法用于较复杂的树结构匹配时,较难匹配成功,因此精确匹配用于本文的模式匹配时召回率不高。本文将卷积树核方法用于计算树的相似度,以进行近似模式匹配,从而提高了召回率。更进一步,本文对卷积树核方法进行了修改,提出了近似卷积树核方法,在略微牺牲准确率的情况下大大提高了召同率。(3)提出了商品特征本体及其构建方法,并构建了评价词Taxonomy,最后给出了基于本体和评价词Taxonomy进行极性分析的算法思路利实现方法。评价词典是极性分析的基础。目前已有的评价词典仅列出了评价词的极性,而没有考虑到评价词与不同评价对象搭配时极性发生变化的情况。同时,自动抽取出的特征杂乱无章,不便于商品评论分析结果的汇总展示。本文将特征进行了层次化表示,建立了特征本体,并将评价词进行分类,建立了评价词Taxonomy,并且将评价对象与评价词的不同搭配使用进行对应,不但很好的处理了极性变化的情况,而且能够使用具有代表性的、受关注度较高的特征来展示极性分析结果。本文对提出的各种算法都通过实验进行了验证,实验结果表明本文提出的算法是行之有效的。