论文部分内容阅读
在线购物已经成为日常生活中一种基本的消费模式。在此环境下,网络评论由于包含已有用户对现有商品所持的观点,因而能够为其他潜在的客户在确定购买决策时提供重要的参考价值。另一方面,商品或是服务的提供方也能根据用户的评论了解消费者对自身产品的反映,从而能够有针对性地提高商品或是服务的质量。然而,网络评论的数量巨大,这就决定了需要采用自动化和智能化的技术来应对海量评论的处理。 用户评论包含了两个核心对象——观点目标和观点词。前者指定了用户对什么对象进行评论,后者描述了作者对该对象持有的观点是什么。因此,从评论中自动抽取观点目标和观点词是观点挖掘的一项重要工作。本文针对观点目标和观点词的协同抽取方面展开研究,主要工作包括: 首先,有监督的观点目标和观点词抽取方法。本文首先采用字对齐模型从评论中构造出候选的观点词对,即<观点目标,观点词>二元组,然后通过特征工程将候选的观点词对进行向量化,进而采用有监督的方法实现观点目标和观点词的联合抽取。 其次,结合主动学习的半监督抽取方法。在有监督学习方法中需要大量的人工标签实验数据,但人工标签数据是耗时费力且易出错的。因此本文提出一种结合主动学习的半监督方法协同抽取观点目标和观点词。该方法首先采用基于样本的不确定采样策略和基于向量特征的不确定采样策略评估标注样本能为抽取性能带来的信息量,然后选择信息含量大的进行标注,通过多次迭代逐步提升抽取模型的泛化能力。 最后,面向观点目标和观点词联合抽取的数据集。本文在Amazon评论集的基础上构建了一个针对观点目标和观点词联合抽取的真实数据集。该数据集涵盖了Amazon上的五种商品的评论,近60万的候选观点对。本文中提出的算法和现有方法的对比实验均在该构造的数据集上进行,验证了所提出算法的有效性。