论文部分内容阅读
随着计算机与网络技术的迅猛发展,Internet已经成为现代主要的信息载体,网络在线文档也成为人们日常生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,Internet又逐步地从静态的信息载体变成人们表达意见、交流情感的平台,人们通过各种途径,以各种方式表达自身对于各种事物的意见、看法:新闻评论、产品评论、情感博客等。这些观点性内容对于网络电子商务、网络社区发现、网络信息安全、网络信息检索等多方面都具有重要的意义和实用价值。面对如此海量的富含情感信息的文本,亟待找到一种快速的自动分析方法对这些网络文本进行处理。对网络文本观点性内容的自动情感分析成为近期web信息处理的一个研究热点,而其中的核心技术就是文本倾向性分析。情感词典构建是文本倾向性分析的基础。本文以高质量的情感词典构建算法作为研究目标,着重对以下几个方面进行了深入的研究:首先,介绍了文本倾向性分析研究的背景,分析了文本倾向性分析及情感词典构建所面临的挑战;然后分析了当前文本倾向性分析及情感词典构建技术的研究现状;最后进一步明确了研究情感词典构建算法的意义和必要性。为了减少通用情感词典构建算法对于基准词的依赖,提出了基于函数优化的通用词典构建方法。目前多数通用情感词典构建方法根据语气待定词语与之前人工进行语气标注的基准词之间的局部信息来确定语气待定词语的语气倾向。这样导致了两方面的问题:①由于对于语气待定词语与测试集中所有词语之间的全局信息利用不充分,致使算法准确率仍存在提高空间;②该方法对领域专家的依赖较强,对基准词的选择和数量较为敏感。针对该问题,本文从图划分的角度提出基于函数优化的通用情感词典构建方法,该方法将通用情感词典构建问题转化为函数优化问题,并利用模拟退火算法进行求解。为了解决基于图划分方法在某些应用场景中易于陷入局部极值的问题,提出了基于词语聚团性的通用词典构建方法。在利用函数优化求解图分解问题的算法中,多数以“最小切分”作为切分的目标。但当子图大小和数目不固定时,采用“最小切分”策略的目标函数在求解过程易于陷入局部极值:即倾向于把所有节点划入一个子图,而使的另外的子图中的节点数目为零。针对该问题,本文采用复杂网络社区发现中的基于Modularity优化的方法来构建通用情感词典。本文对于传统Modularity方法的改进在于,只比较所有二分情况下的Modularity值并进行优化,这样既使得Modularity方法能够适用于本问题,又极大的降低了运算量。为了解决情感词典的领域移植问题,提出了基于扩展信息瓶颈的领域词典构建方法。领域情感词典被广泛应用于细粒度的文本倾向性分析中,自动构建领域情感词典文本倾向性分析研究中一个重要且基础的工作。现有的构建算法只考虑了新旧领域之间词语的关系,算法准确率仍存在提升空间。针对该问题,本文对传统信息瓶颈聚类方法进行改进,通过充分利用源领域与目标领域的情感词与文档之间的相互关系,来建立目标领域的领域情感词典。最后,设计并实现了一个细粒度的产品属性挖掘系统。在该系统中,通过利用产品属性和评论语气词之间的互相推荐,可以实现同时对商品属性词类别和评论语气词类别进行构建,并将相关的产品属性类别与评论词类别进行关联;进而通过情感词典的引入,实现了基于属性的产品比较和推荐。