论文部分内容阅读
随着Web2.0的快速发展,互联网上产生了大量的用户生成内容(User Generated Content)。这些用户生成内容包含大量有用的情感信息,对于用户决策和企业的产品改进等有着重要的价值。因此,如何使用文本情感分类技术对海量的用户生成内容中的情感信息进行挖掘,已经成为学术界和产业界的一个热点问题。目前虽然基于机器学习的文本情感分类方法已经取得较好的结果,但是在实际应用中获取有标记样本需要消耗大量的人力,相反获取未标记样本却十分容易。因此,如何利用少量有标记样本和大量未标记样本进行文本情感分类已成为一个亟待解决的问题。为此本研究将半监督协同训练方法引入到文本情感分类方法当中,用于解决文本情感分类中未标记样本的利用问题。首先,本研究分析了文本情感分类和半监督学习的研究现状,明确了当前的研究问题和未来的研究方向。其次,本研究对文本情感分类和半监督学习的基础理论进行了系统研究,分析了文本情感分类的主要任务、文本情感分类的主要方法,以及半监督学习的基本假设、半监督学习的有效性和半监督学习的主要方法等基础理论。然后,以此为基础,本研究对基于半监督协同训练的文本情感分类方法进行了研究。考虑到当前已有研究还较少关注数据分布对文本情感分类的影响,本研究从数据分布是否均衡两个角度,分别构建了数据分布均衡条件下基于IDSSL的文本情感分类模型,以及在数据分布非均衡数据条件下基于混合策略的文本情感分类模型。最后,本研究将基于半监督协同训练的文本情感分类方法引入到实际应用中,通过选取电子商务和医疗社交媒体两个实际应用场景,分别对两类基于半监督协同训练的文本情感分类方法的有效性进行了检验。实验结果表明,本研究提出的方法在不同数据分布情况下均取得了较好的结果,从而验证了本研究提出方法的有效性。通过本研究,一方面将半监督学习方法引入到文本情感分类问题中,拓展了文本情感分类和半监督学习的基础理论,并以此为基础构建了基于半监督协同训练的文本情感分类模型。另一方面,将基于半监督协同训练的文本情感分类模型应用于具体实际问题中,拓展了文本情感分类和半监督学习的应用范围。