论文部分内容阅读
近年来,人们越来越依赖于社交软件来表达自己的观点,如使用微博、论坛、贴吧等渠道发表意见,表达情感。而人们对于热点事件和话题的各种各样的情感信息,则通过上述方式直观的反映了出来。因此,通过挖掘和研究大众对各类事件的情感倾向,可以达到对热点舆论的监控和大众看法的感知,为国家、企业等作出决策提供着重要依据。以往的信息检索及采集技术,多数是以关键词为基础,难以支持情感倾向的挖掘,信息提取和文本分类通常没有进行深层次的语义挖掘,因而对文本中所表达出的情感倾向无法进行深层次的挖掘。因此在大数据时代,有效地利用数据挖掘及文本挖掘的相关知识,挖掘微博热点信息以及评论中的情感倾向,将在商品智能推荐、政府舆情监控、文本自动分类等方面有广阔的发展前景。本论文的主要研究内容如下:(1)对情感倾向分析和文本分类的相关概念和技术做了分析,包括微博短文本情感倾向分类以及文本分类的国内外研究现状、文本分类常用的几种算法:支持向量机(SVM),最大熵、决策树、人工神经网络算法等,并重点分析了传统的k最近邻算法,研究算法的基本思路以及该算法在文本分类当中的应用。(2)基于传统的k最近邻算法,并结合一定的关联规则,本文提出了一种对于k最近邻算法的改进:基于主题--情感相关联的k最近邻算法,在文本分类时主题与情感相关联,进行特征值的组合,能够更好的确定k值,提高分类效率。(3)将改进后的基于主题--情感的k最近邻算法在微博热点信息数据集中加以应用,进行情感倾向正向、负向、中性三种分类实验,同时也利用传统的k最近邻算法进行对比实验。在实验前完成微博短文本预处理、特征频繁项集建立等工作。实验结果表明,较传统的k最近邻算法,本文改进的算法在查准率、查准率以及F1值等各项测评指标中都有所提高,降低了算法的时间复杂度,提高了情感分类的效率,有利于更加准确的挖掘微博热点信息中的情感倾向,在处理海量包含主题的中文热门微博时具有一定的可行性。