基于数据挖掘技术的垃圾文本识别研究

被引量 : 0次 | 上传用户：wrothnpc

【摘要】

：

随着Web2.0应用的深入发展，互联网已经进入了一个全民创造信息的时代，但同时也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力；论坛、微博等用

【作者】

：

李龙

【机构】

：

汕头大学

【发表日期】

：

0年期

【关键词】

：

数据挖掘技术垃圾文本识别数据分析首尾哈希算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web2.0应用的深入发展，互联网已经进入了一个全民创造信息的时代，但同时也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力；论坛、微博等用户原创型应用又提供了众多信息分享的平台。这些极大地丰富了网络中原创文本内容，但在吸引众多用户浏览和分享的同时，也吸引了垃圾信息的发布。不论出于商业利益或者政治目的，这些行为导致很多论坛、热点博客的回复区、个人空间的留言板、微博的私信中等几乎所有支持文本发布功能并能吸引公众注意力的地方都充斥着垃圾信息。此类信息多以文本内容的形式出现，如何挖掘出其中潜藏的，没有价值的信息，保持数据的有效性和可用性，为用户提供一个干净的网络环境，是当前迫切需要解决的重要问题。　　本文提出了垃圾文本定义和垃圾文本识别概念，分析了垃圾文本形式、危害、防范方法及通用识别方法。在Hadoop集群构建的实验平台上，基于某公司的真实数据集，展开了将文本挖掘和用户行为挖掘应用于垃圾文本识别的一系列研究。通过对相关算法的改进提出了：顾盼算法，解决了热词问题，有效降低属性间依赖关系，提升了朴素贝叶斯算法的整体性能；往返折半逼近算法，可快速将属性子集大小逼近理想状况；择优算法，解决了掩饰性垃圾文本较难识别的问题，有效提升了模型的召回率；首尾哈希算法，有效解决大规模长文本匹配中计算、存储代价过高问题。　　最后，从实验结果数据分析，上述算法在模型性能提升上均有较明显效果。论文还对文本挖掘与用户行为挖掘性能差异研究分析，论述了二者结合使用的可能性。论文还实现了部分挖掘算法的分布式并行化处理，解决了大数据挖掘中计算和存储资源的限制。

其他文献

劣质数据库上查询估计技术的研究

随着现代社会信息量的不断增大，不正确、不一致、不确定的劣质数据开始普遍存在于数据管理系统中，极大地降低了数据的质量，给社会带来了严重的损失。因此，迫切需要新的技术来处理

学位

数据质量劣质数据查询优化查询估计

结构化P2P网络中基于兴趣的搜索机制研究

随着信息技术的发展，P2P技术作为一种新型的网络应用模式受到了广泛关注。传统的互联网使用集中式拓扑结构，存在单点失效、服务器瓶颈等缺陷，P2P网络的出现能够较好的解决这些问

学位

对等网络网络模型资源检索语义兴趣

对医学时间序列数据ABP的分类研究

目前各大医院重症监护室(ICU)的监护中存在着急性低血压(AHE)抢救及护理难题。AHE的发生不仅会影响治疗效果,并且严重威胁着患者的生命安全。近年来随着医疗监护技术和信号分

学位

重症监护室医学时间序列数据特征选择模型聚类交叉验证DTW度量方式

基于本体的上下文感知计算模型的研究与应用

普适计算已经成为当今世界的一个研究热点，国内外学者在普适计算方面已经做了大量的研究工作。普适计算要求做到信息空间和物理空间的融合，用户可以随时透明地获得需要的服务。

学位

普适计算本体上下文感知计算模型智能实验室

支持向量机方法及应用研究

随着信息技术的迅速发展和Internet的广泛普及，产生的数据量日益增多，如何从这些大量的数据中发现有用的信息来帮助人们对未知的现象作出正确的指导和预测，就成为了十分迫切的课

学位

支持向量机核函数Nystr(o|¨)m遗传算法特征向量

基于颜色特征的广义M-J集检索方法研究

随着网络技术和信息技术的快速发展，图像数据的数量也在激剧增长，有效的图像检索变得十分重要。最初的图像检索技术是通过图像附加的文字标注进行检索，即所谓的基于文本的图像检

学位

广义M-J集颜色特征图像检索多特征

基于射影变换的点集匹配研究

图像匹配算法作为计算机视觉中最重要的研究方向之一，可分为基于灰度信息和基于特征信息两大类。其中，对于基于特征点的匹配算法，常通过几何变换模型进行匹配。目前，大部分关于几

学位

射影变换点集匹配分布规律输入参数

基于栈结构的虚拟机研究与实现

在应用软件的开发中,虚拟机的概念对于解决软件开发中核心问题,如代码可维护性,系统健壮性,具有重要的指导性作用。不但在早期计算机的软硬件设计方面,起到核心作用,在现实的

学位

栈结构虚拟机虚拟指令Csmart语言

基于工作流的项目申报管理信息系统的设计与实现

随着计算机和网络技术的快速发展,在政府部门尤其是科技主管部门,项目审批管理系统都在发挥着越来越重要的作用。科技厅作为国家与外界企事业单位交互的窗口,如何快速提升它

学位

工作流项目申报管理信息系统协同审批UML

嵌入式操作系统微内核体系结构的研究与设计

嵌入式操作系统是嵌入式系统的基础软件平台,它必须具有实时性好、稳定性高、可移植性强并且针对具体的应用具有可裁剪、可配置的特点。随着嵌入式技术的飞速发展,早期基于宏

学位

嵌入式操作系统微内核体系结构进程间通信进程切换单片机平台

基于数据挖掘技术的垃圾文本识别研究

与本文相关的学术论文