推特中的文本污染信息过滤方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ssm3695
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信与信息技术的高速发展,朝气蓬勃的互联网行业以其良好的实时性和动态性广受欢迎。而网络媒体凭借着网络对信息传播的迅速和低成本,使得用户更加青睐于这个新兴的行业。同时,作为网络信息传播的一大渠道,以推特为代表的社交媒体在全球的许多行业中起到了越来越重要的作用。所以,从社交媒体的海量信息中如何高效地提取出有用信息引起了研究者的注意。然而,推特在为研究者提供文本信息来源的同时,也有许多不同于普通文本的处理困难。一方面,通过观察推文发现,大部分推文是无意义的噪声信息和重复冗余的无效信息,如用户之间的闲聊、转发等。另一方面,社交网络是开放、非正式的媒体,用户在使用推特时具有随意性,其发表的文字内容也会受到各种因素的影响,产生了大量的不规范单词。本文通过对原始推文的统计与分析,分别从不规范单词和垃圾推文两种角度出发,就推特中的文本污染信息提出了一种有效的解决方案。本文主要贡献如下:(1)通过传统的拼写纠错技术与词向量模型相结合,提出了结合语义信息对不规范单词进行处理的方案。该方法针对最短编辑距离方法难以处理词形差异较大的不规范单词,使用了单词的语义信息进行规范化处理。另外,本文设计并实现了判别不规范单词方案,并结合一些辅助工具,大幅缩小了需要比较语义相关性的单词范围,实现了提高单词规范化速度的方案。在对推特中的单词进行规范化实验中,验证了通过词向量之间的余弦距离实现单词规范化的方案具有一定的实际意义。(2)通过词向量与卷积神经网络相结合的方法,形成了一个相对完整有效的对推特中的垃圾推文进行过滤的方案。探究卷积神经网络在推文过滤方面的应用,基于推文的文本特征少于图片特征的特点,本文将卷积神经网络中常用的池化层替换为压平层,减少池化损失。在实验中,使用了项目研究中标记好的多份实际推文训练集进行测试,证明了分类器的效果有一定的提升,而且在不需要过多的调节参数时就能达到较好的结果。
其他文献
随着移动互联网的高速发展,智能终端设备的不断普及,用户地理位置信息的获取变得十分便捷。这些位置数据通常包含大量信息,这些信息对于分析、预测人类的行为模式有着极为重
时间序列数据,即一段时间内以固定的时间间隔采集的数据点的序列,已成为生产生活中重要的信息记录形式。RRDtool是当今被广泛使用的一种存储时间序列数据的数据库工具,但是基于R
天波超视距雷达(Over-the-Horizon Radar,OTHR)因其发射的高频电磁波会经过高空电离层的反射,因而能够忽视地球曲率的影响,实现超远距离的目标探测。这样独特的工作机理使得
在高速公路建设、维修和突发事件的处理上,由于涉及地域范围广、地理情况复杂以及监控点变动大等特点,使有线监控手段在高速公路实际应用中遇到一些困难,加之使用传统视频监控设
近年来,随着压缩感知(Compressed sensing,CS)理论的普及,该技术已经被广泛应用于正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)的稀疏信道估计研究中。不
随着安防监控在社会上需求的进一步加大,视频监控行业也快速发展。但由于监控系统技术环节复杂,产业链分工明显,导致整个行业出现技术标准不统一的问题,各大厂商生产的监控产品不
随着光伏路灯在当前的应用愈加普遍,对其性能进行正确分析和评价就显得尤为必要。由于新型光源LED系列灯具和其他照明灯具相比,具有一系列非常明显的优势,因此,本文正是在结
随着众多研究领域所需计算量快速增加,普通串行程序会达到性能瓶颈,导致仿真运行时间消耗过多,越来越不能满足人们的需求,所以通过并行程序良好地使用各种高性能多核硬件设备
图像匹配(Image Matching)是计算机视觉和图像处理中的重要研究内容,主要用于将不同时间、不同传感器、不同视角及不同拍摄条件下获取的两幅或多幅图像进行匹配。在图像融合、
随着电子学、光电探测、图像处理和计算机等技术不断成熟和完善,基于数字投影的三维形貌测量技术目前已成为最有发展前景的非接触式光学测量技术之一。这一技术具有设备要求简