论文部分内容阅读
实际应用中,相对于数据的大量、快速产生,对应的标记信息获取却十分困难,如Web评论数据,在线交易等,使得已有的数据挖掘算法面临着巨大的挑战。为此,迁移学习的研究受到了广泛的关注。迁移学习是一种能够从已有的任务中获取对新任务学习有利的知识并加以利用,且不受独立同分布条件的限制。本文面向产品评论数据的情感分类应用,基于自学习思想对直推式迁移学习展开研究,主要工作如下:(1)首先对迁移学习进行了总体地概述,包括其出现的必要性和发展背景、迁移学习的主要研究问题与分类以及迁移学习的研究现状与应用;(2)为了更好地利用多个原始领域知识以及解决相对“较差”的原始领域对迁移的负面影响,本文提出了基于类别分布的多领域动态适应算法MDACD。该算法通过动态处理多个原始领域使它们不断向目标领域靠拢,从而更好地向目标领域迁移知识。同时该算法利用类别分布信息来选择原始领域,在一定程度上消除了那些相对“较差”的原始领域对迁移学习的影响。从大量的实验可以看出该算法达到了预期的效果;(3)为了解决原始领域中相对“较差”的实例对迁移的负作用,本文提出了基于实例重构的多领域适应算法MAIR。该算法利用原始领域多个相关实例重构目标领域实例,充分地利用了原始领域中与目标领域相关的实例,避免了那些相对“较差”的原始领域实例对迁移的负面影响。从实验结果可以得知该算法在分类性能和时间性能上都取得了较大的优势;(4)为了更好地应用本文所提出的算法,文章在最后面向商品评论的情感分类问题设计了跨领域情感分类原型系统。该系统集成了数据在线获取和算法执行两部分功能,在实际应用中取得了较好的结果。