论文部分内容阅读
观点挖掘,又称情感分析,是指通过自动分析用户评论的文本内容,得到用户对产品、服务、人物、事件和话题等的情感、态度和观点等,具有重要的理论价值和应用价值。观点挖掘分为粗粒度和细粒度两种,虽然粗粒度观点挖掘已经比较成熟,但是细粒度观点挖掘仍然存在很多问题。评价对象抽取是细粒度观点挖掘中一个重要的子任务,目的是从观点文本中抽取细粒度的评价对象,例如产品本身及其组成部分、属性和特征等。目前,评价对象抽取方法主要分为两类:有监督的和无监督的。前者主要基于隐马尔科夫模型和条件随机场,后者主要基于主题模型和句法规则。近年来,有研究表明基于无监督的句法规则的方法表现出很好的性能,但同时面临一些挑战。第一个挑战是如何快速实现评价对象抽取规则。第二个挑战是如何从质量参差不齐的评价对象抽取规则中自动选择高质量的规则。第三个挑战是如何利用大量无标注的评论文本帮助评价对象抽取。针对这些挑战,本文提出以下解决方案。据我们所知,这些解决方案都是本文首次提出。(1)提出一种基于逻辑编程的评价对象抽取框架,以快速实现评价对象抽取规则。本文采用的逻辑编程语言是回答集编程语言(ASP)。首先将评论句子中单词的词性和句法依存关系等信息表示成ASP事实。然后将已知的评价对象抽取规则转化成ASP规则。最后利用现有的ASP回答集求解器自动实现规则。实验结果表明,该方法不仅高效而且简洁。(2)提出两种自动选择规则的方法,以从质量参差不齐的评价对象抽取规则中自动选择高质量的规则用于评价对象抽取。第一种基于贪心算法,第二种基于局部搜索算法(模拟退火算法)。实验结果表明,两种方法都能够有效地从质量参差不齐的初始规则集中选择高质量的规则子集,从而获得比初始规则集更好的抽取结果。(3)提出一种基于语义相似性和相关性的评价对象推荐方法,以利用大量无标注的评论文本帮助评价对象抽取。首先利用互联网上大量无标注的评论文本学习词汇间的语义相似性和相关性知识。然后利用这些知识和少量种子评价对象向新的领域推荐评价对象。实验结果表明,该方法能够有效利用从其它领域学习的知识向新的领域推荐高质量的评价对象。