基于文本分类的微博情感倾向研究

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:chen721050780
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们越来越依赖于社交软件来表达自己的观点,如使用微博、论坛、贴吧等渠道发表意见,表达情感。而人们对于热点事件和话题的各种各样的情感信息,则通过上述方式直观的反映了出来。因此,通过挖掘和研究大众对各类事件的情感倾向,可以达到对热点舆论的监控和大众看法的感知,为国家、企业等作出决策提供着重要依据。以往的信息检索及采集技术,多数是以关键词为基础,难以支持情感倾向的挖掘,信息提取和文本分类通常没有进行深层次的语义挖掘,因而对文本中所表达出的情感倾向无法进行深层次的挖掘。因此在大数据时代,有效地利用数据挖掘及文本挖掘的相关知识,挖掘微博热点信息以及评论中的情感倾向,将在商品智能推荐、政府舆情监控、文本自动分类等方面有广阔的发展前景。本论文的主要研究内容如下:(1)对情感倾向分析和文本分类的相关概念和技术做了分析,包括微博短文本情感倾向分类以及文本分类的国内外研究现状、文本分类常用的几种算法:支持向量机(SVM),最大熵、决策树、人工神经网络算法等,并重点分析了传统的k最近邻算法,研究算法的基本思路以及该算法在文本分类当中的应用。(2)基于传统的k最近邻算法,并结合一定的关联规则,本文提出了一种对于k最近邻算法的改进:基于主题--情感相关联的k最近邻算法,在文本分类时主题与情感相关联,进行特征值的组合,能够更好的确定k值,提高分类效率。(3)将改进后的基于主题--情感的k最近邻算法在微博热点信息数据集中加以应用,进行情感倾向正向、负向、中性三种分类实验,同时也利用传统的k最近邻算法进行对比实验。在实验前完成微博短文本预处理、特征频繁项集建立等工作。实验结果表明,较传统的k最近邻算法,本文改进的算法在查准率、查准率以及F1值等各项测评指标中都有所提高,降低了算法的时间复杂度,提高了情感分类的效率,有利于更加准确的挖掘微博热点信息中的情感倾向,在处理海量包含主题的中文热门微博时具有一定的可行性。
其他文献
传感器网络作为新兴的测控网络技术是能够自主实现数据采集融合和传输应用的智能网络应用系统。传感器网络是逻辑上的信息世界与真实的物理世界紧密结合,从而真正实现“无处
随着互联网技术的飞速发展,互联网络上的信息量正在以几何级数的增长速度增长,因此,对网络上信息的高效检索成为互联网发展必须要解决的问题,搜索引擎技术得到了特别的重视并且正
模型检测是一种重要的形式化验证技术,能自动地检验系统是否满足所期望的性质。模型检测已经被成功地应用于计算机硬件、通信协议、控制系统和安全认证等方面的分析与验证中
随着网络技术的发展,数字化、网络化的视频监控系统使人们可以通过网络不受限制地对重要场所实施监控,为安防领域注入新的活力。基于无线局域网的网络监控,常用于小范围的监
基于内容的图像检索包括基于全局特征和基于区域特征的图像检索,基于全局特征的图像检索相对比较简单,计算速度快,但是它具有歧义性,即特征相似的图像表达的语义可能不一样。
随着科技的发展,各种先进的技术应用于图书馆文献管理上,特别是无线射频识别( Radio Frequency Identification,RFID)技术已开始在图书馆应用,图书馆文献管理工作得到飞跃的发展,
随着科技的进步,电子游戏经历了跨越式发展,游戏业的快速发展离不开游戏开发技术的研究,基于A~*算法游戏寻路是游戏开发技术的一个热门研究课题。A~*搜索算法虽然高效,但也有
无线传感器网络中,确定节点或事件发生的位置对其监测活动至关重要,其中,节点自身的准确定位不仅是提供监测事件或目标位置信息的前提,也是提供网络拓扑自配置、提高路由效率
随着信息量爆炸式的增加,伴随而来的是无关信息大量充斥在用户身边,用户无法方便地获取自己所需要的信息,因此在用户身边越来越频繁地见到推荐系统的影子。推荐系统对于向特
本文通过深入研究IEEE802.15.4/ZigBee协议标准和无线传感器网络操作系统TinyOS,设计实现了基于GAINZ节点的无线传感器网络平台,本文的具体研究和实现工作包括以下几个方面: