基于数据挖掘技术的垃圾文本识别研究

被引量 : 0次 | 上传用户:wrothnpc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0应用的深入发展,互联网已经进入了一个全民创造信息的时代,但同时也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力;论坛、微博等用户原创型应用又提供了众多信息分享的平台。这些极大地丰富了网络中原创文本内容,但在吸引众多用户浏览和分享的同时,也吸引了垃圾信息的发布。不论出于商业利益或者政治目的,这些行为导致很多论坛、热点博客的回复区、个人空间的留言板、微博的私信中等几乎所有支持文本发布功能并能吸引公众注意力的地方都充斥着垃圾信息。此类信息多以文本内容的形式出现,如何挖掘出其中潜藏的,没有价值的信息,保持数据的有效性和可用性,为用户提供一个干净的网络环境,是当前迫切需要解决的重要问题。  本文提出了垃圾文本定义和垃圾文本识别概念,分析了垃圾文本形式、危害、防范方法及通用识别方法。在Hadoop集群构建的实验平台上,基于某公司的真实数据集,展开了将文本挖掘和用户行为挖掘应用于垃圾文本识别的一系列研究。通过对相关算法的改进提出了:顾盼算法,解决了热词问题,有效降低属性间依赖关系,提升了朴素贝叶斯算法的整体性能;往返折半逼近算法,可快速将属性子集大小逼近理想状况;择优算法,解决了掩饰性垃圾文本较难识别的问题,有效提升了模型的召回率;首尾哈希算法,有效解决大规模长文本匹配中计算、存储代价过高问题。  最后,从实验结果数据分析,上述算法在模型性能提升上均有较明显效果。论文还对文本挖掘与用户行为挖掘性能差异研究分析,论述了二者结合使用的可能性。论文还实现了部分挖掘算法的分布式并行化处理,解决了大数据挖掘中计算和存储资源的限制。
其他文献
随着现代社会信息量的不断增大,不正确、不一致、不确定的劣质数据开始普遍存在于数据管理系统中,极大地降低了数据的质量,给社会带来了严重的损失。因此,迫切需要新的技术来处理
随着信息技术的发展,P2P技术作为一种新型的网络应用模式受到了广泛关注。传统的互联网使用集中式拓扑结构,存在单点失效、服务器瓶颈等缺陷,P2P网络的出现能够较好的解决这些问
目前各大医院重症监护室(ICU)的监护中存在着急性低血压(AHE)抢救及护理难题。AHE的发生不仅会影响治疗效果,并且严重威胁着患者的生命安全。近年来随着医疗监护技术和信号分
普适计算已经成为当今世界的一个研究热点,国内外学者在普适计算方面已经做了大量的研究工作。普适计算要求做到信息空间和物理空间的融合,用户可以随时透明地获得需要的服务。
随着信息技术的迅速发展和Internet的广泛普及,产生的数据量日益增多,如何从这些大量的数据中发现有用的信息来帮助人们对未知的现象作出正确的指导和预测,就成为了十分迫切的课
随着网络技术和信息技术的快速发展,图像数据的数量也在激剧增长,有效的图像检索变得十分重要。最初的图像检索技术是通过图像附加的文字标注进行检索,即所谓的基于文本的图像检
图像匹配算法作为计算机视觉中最重要的研究方向之一,可分为基于灰度信息和基于特征信息两大类。其中,对于基于特征点的匹配算法,常通过几何变换模型进行匹配。目前,大部分关于几
在应用软件的开发中,虚拟机的概念对于解决软件开发中核心问题,如代码可维护性,系统健壮性,具有重要的指导性作用。不但在早期计算机的软硬件设计方面,起到核心作用,在现实的
随着计算机和网络技术的快速发展,在政府部门尤其是科技主管部门,项目审批管理系统都在发挥着越来越重要的作用。科技厅作为国家与外界企事业单位交互的窗口,如何快速提升它
嵌入式操作系统是嵌入式系统的基础软件平台,它必须具有实时性好、稳定性高、可移植性强并且针对具体的应用具有可裁剪、可配置的特点。随着嵌入式技术的飞速发展,早期基于宏