基于AdaBoost-LC的微博垃圾评论识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:scuthh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0和互联网的飞速发展,社交网络呈现爆发式增长。微博作为社交网络的一大重要代表逐渐深入人心,成为网民上网的主要活动之一。正是由于微博具有便捷性、高速度、广泛性、效率高、背对脸等特点,吸引了垃圾制造者们的注意。垃圾制造者出于各种目的,在微博上发表了大量的各种垃圾评论,这些垃圾评论的泛滥既影响网民之间的交流,甚至使得网民上当受骗,又阻碍了面向评论的数据挖掘工作,因此垃圾评论的识别与过滤具有重要意义。本文面向微博领域进行识别垃圾评论的研究,主要的研究工作及成果如下:①针对微博评论短小,分词后容易出现特征稀疏的问题,提出把微博评论表示成特征值向量,由9个特征值组成,从多个不同的角度来描述评论的内容,在此基础上提出一种基于AdaBoost-LC的微博垃圾评论识别方法,该方法以线性分类器中最简单的单阈值二值分类器作为基分类器,然后使用集成学习算法——AdaBoost算法来提升基分类器的分类精度。②针对AdaBoost-LC算法存在的不足之处,“困难”样本权重急剧扩张引起的退化现象,以及在垃圾评论识别场景下,正常评论被错误识别的代价更加高昂的问题,提出一种改进的AdaBoost-Ex算法来识别垃圾评论。③针对垃圾评论出现新特征,或者分类器随时间流逝分类性能下降需要重新学习的问题,本文设计了算法的模块化增量学习模型,该模型在保留原本学习到的规则的基础上,只需要学习新样本的规则,学习到的子分类器以线性加权的方式融合到增量学习系统中,使得算法具有渐进式的学习能力,增强了算法的实用性。最后,在实际的热门新浪微博的评论数据集上分别对本文提出的方法进行了实验,证明本文所提方法对微博垃圾评论具有良好的识别效果。
其他文献
在医学和生物学等研究领域里,数字共焦显微镜技术作为一种建立在光学显微镜基础之上的新型显微技术,可通过光学切片技术、采集研究中所需的生物细胞或者组织图片的切片序列,
僵尸网络因其自身易控制、范围广、难检测等特点已发展成为目前互联网中最主要、最广泛的网络攻击平台,Botmaster可以利用僵尸网络实施窃取信息、Spamming、DDOS攻击等恶意行
自从1999年Napster软件出现以后,P2P技术以其强大的支持网络的可扩展性而迅速受到广大研究者的关注。从2000年开始,学术界持续关注P2P技术并进行了深入研究。到2007年,P2P技术的
近年来,随着越来越多的网络资源发布在Internet上,分布式计算成为了业界研究与应用的主流模式。在分布式计算模型中,计算任务是由分布在网络上的多台计算机协作完成的。为了实现
目前,无线Mesh网络已经成为了下一代无线网络中一种非常具有应用前景的新型无线组网技术,它可以为用户提供灵活的自适应无线互联网接入,因此很多新兴的网络运营商都在利用各
计算机处理的数据一般来说基本抽象于客观世界,由于客观世界中事物的复杂性,导致数据结构极其复杂,数据维度极高,这无疑增加了计算机处理数据的难度。Folksonomy是通过用户自
随着信息化技术的不断提高,人们对交通设施以及汽车安全性能的要求也随之提高,智能交通就是在此的环境催生之下产生并发展的。为了提高车辆的主动安全性,在车辆上安装行车辅助系
仿生智能计算是一类模拟自然界生物、生态等系统中“优胜劣汰”行为的模型和算法,具有自适应、自组织、自学习等特点,能够解决传统计算方法难于解决的各种复杂问题。仿生智能计
人类基因组计划目标是完成人类染色体的全部 DNA的测序,这对于治疗遗传病有着重要的意义。现有的技术不可能直接连续测序超过几百个碱基的片段,只能使用散弹枪法获得并测序大
随着云计算的发展,由欺诈行为驱动的窃取云资源和云服务的行为日趋严重,导致云计算资源的拥有者、提供商与被提供服务的用户间出现信任危机,此种危机给云计算的应用与发展带