论文部分内容阅读
在互联网快速发展的今天,“大数据”的存储和使用,已经成为信息技术领域急需解决的问题。文本数据作为人类知识的载体,意义非凡,如何运用大量未标记样本来提升文本情感分类的精度,也变得愈发重要。本文主要研究了基于图的半监督情感分类算法,创新工作如下。(1)将半监督学习中重要的聚类核算法应用到情感分类问题中,给出了基于聚类核的半监督情感分类算法。首先在标记样本和未标记样本上,建立加权无向图后,求解聚类核。然后将该核函数用于SVM情感分类器的训练上,完成分类工作。该方法直接将未标记样本所蕴含的信息融合到核中,不需要建立多个分类器。实验表明,该算法在分类精度上明显优于基于Self-learning SVM和Co-training SVM的半监督情感分类算法,且在不同数据集上都有较好的适应性。(2)将聚类核算法同图最小分割法相结合应用到情感分类问题中,建立了基于图聚类核的半监督情感分类算法。首先在所有样本上进行构图,对邻近标记点和未标记点分别给予不同的权重。然后,求解出基于该图的聚类核,将通过聚类核从新表示后的数据带入到图最小分割法中,得到更好的分类效果。该算法更好的满足半监督学习的基本假设,有效利用了未标记样本中蕴含的信息。实验表明,该算法在分类精度上明显优于其他半监督情感分类算法,且不同数据集上都有较好结果。(3)将Graph-of-words文本表示模型引入半监督情感分类问题中,提出了两种基于Graph-of-words的半监督情感分类算法。在文本预处理过程中,使用Graph-of-words模型进行文本向量化,然后将上述模型与前面提出的分类算法想结合,完成情感分类问题。该算法考虑了文本表示方法对于情感分类算法的影响,进一步了提高半监督情感分类算法的分类精度。实验表明,基于Graph-of-words模型的半监督情感分类算法在分类精度上明显优于前面列举出的算法,改进效果明显。