社交网络垃圾用户检测方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:aa70533028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的蓬勃发展日益满足着人类的社交需求,但也为网络欺诈提供了温床。借助社交网络,垃圾用户实施的行为很可能破坏正常用户的隐私和名誉,甚至转变成对社会稳定与国家安全的一大威胁。垃圾用户善于伪装,且不断改变其实施垃圾行为的策略,导致现有一些检测方法失效。本文以此为出发点,以矩阵分解和深度学习作为技术手段,利用社交网络中多种类型信息,提出检测垃圾用户的几种解决方法,主要贡献为:(1)基于凸非负矩阵分解的垃圾用户检测方法。针对基于手工提取的特征矩阵具有稀疏性导致垃圾用户检测效果下降,以及现有检测方法没有合理利用用户之间社交互动关系的问题,提出一种将用户的潜在特征、社交互动信息及分类器分段优化学习的方法。通过凸非负矩阵分解学习出区别度较大的两类用户的潜在特征空间,避免了直接利用手工提取的特征带来的弊端,提出一个基于社交互动频率的正则项,解决了垃圾用户故意构造社交关系以逃避检测的问题,从而训练出的检测模型性能更好。(2)基于多视角学习的垃圾用户检测方法。针对单一视角学习的检测方法在识别实施多样化策略的垃圾用户时,检测效果会下降的问题,提出一种将多个视角的信息、社交关系信息以及分类器共同迭代学习的检测模型,通过将不同视角的潜在特征矩阵进行一致化训练,实现从多个角度以一个指示矩阵形式表示用户特征,解决了对于实施多样化策略的垃圾用户难以检测的问题。同时提出一种补充缺失信息的方法,进一步提高了多视角学习检测垃圾用户的效果。(3)基于注意力机制的垃圾用户检测方法。针对手工提取固定特征可能会导致部分重要信息被丢弃的问题,以及现有深度学习方法主要面向检测垃圾推文的情况,提出一种基于注意力机制检测垃圾用户的模型,利用注意力机制分别从原始推文内容学习基于内容的用户表示,从用户间的社交互动频率学习出基于结构的用户表示,通过两种用户表示,更深层次地揭示用户行动规律,从而进一步提高检测垃圾用户的性能。(4)基于神经网络的隐匿型垃圾用户检测方法。针对利用图片作为载体,传播垃圾信息的隐匿型垃圾用户难以检测的问题,提出一种基于深度神经网络和频域预处理的垃圾图片检测模型,通过检测垃圾图片,从而识别隐匿型垃圾用户。实验验证了垃圾信息主要以高频分量存在于载体图片,提出利用小波变换作预处理,去除图片中低频信息,提升了模型训练的收敛速度。同时,利用先验知识选择特殊的特征提取模块以及合适的层数,进一步提升了检测模型的准确率。
其他文献
随着材料科学与工业技术的快速发展,航空航天、家用电器、医疗器械、汽车、建筑等各领域对高性能新材料的需求与日俱增。于此同时也给新材料与结构的尖端制造和安全评估所需的固体力学模拟带来更严峻的挑战。固体力学模拟离不开材料的本构模型,准确地建立新材料的本构模型,提出数值实现方法,是解决挑战的关键一环。然而,传统本构模型的建立需要很高的智力和时间成本,如著名的Neo-Hookean、Ogden、Hill、D
学位
现代尖端工业装备的设计和分析过程离不开固体力学模拟,而固体力学模拟又离不开材料的本构模型。随着材料科学的发展,大量性能优异的新材料出现。但若没有描述这些新材料的本构模型,则很难将这些材料充分应用到尖端工业装备的制造中。传统材料本构模型的建立往往需要花费很长时间;即使采用已有本构模型来描述部分新材料的力学行为,从现有本构模型中选出恰当的模型也并不容易。这些困难制约了新材料在尖端工业装备中的应用,也限
学位
动网格技术对计算流体力学具有重要的意义,如机翼颤振、多体分离、流固耦合等许多带有运动边界的非定常流动问题都需要用到动网格技术。动网格技术主要包括网格变形、网格重构以及网格变形和网格重构相结合等方法。只采用网格变形方法不能解决所有的问题,在实际应用中经常需要与网格重构相结合,但网格重构会改变原有网格的拓扑,导致新旧网格之间的流场信息传递出现额外误差,降低计算的精度。因此需要在保证网格质量的前提下尽可
学位
微小RNA(microRNA,miRNA)和长非编码RNA(long non-coding RNA,lncRNA)在调控内源基因表达、转录翻译后修饰、表观遗传等方面发挥着重要的作用。miRNA和lncRNA还能够相互作用影响各种生命活动,因此越发受到关注。分子生物学实验能够鉴定miRNA与lncRNA互作关系,但其周期长且费用高。计算方法可以预测潜在的互作关系,为分子生物学实验筛选出有价值的数据,
学位
在自然语言处理领域,无论词义消歧还是句法分析,都是非常重要的基础部分,在信息检索、机器翻译、文本理解、智能对话等都有着广泛应用。现有的词义消歧和句法分析研究,大多数是在词形信息上直接进行匹配计算。这种方式虽然准确性较高,但是泛化能力不足,容易导致数据稀疏问题,影响了系统性能的提高。本文利用语义词典中一个语义分类编码(简称语义码)可代表多个词义相近的词这种特性,先将词转化为词的语义码,然后使用语义码
学位
轻量化是实现汽车节能减排的有效措施之一。与普通钢材相比,高强度铝合金具有密度低、比强度高、易回收利用等优点,是替换普通钢材制造抗冲撞结构件的理想轻量化材料之一。随着温热成形技术的发展,高强度铝合金常温成形性差的问题得到了有效改善,极大地拓展了其在汽车轻量化领域的应用范围。高温成形性是制定铝合金温热成形工艺的主要依据。7075铝合金是高强度7000系铝合金的典型代表,在汽车制造领域受到了较多关注,对
学位
无线网络和物联网技术的发展给智能应用带来了更丰富的可能,对于移动设备和用户来说,位置始终是一个重要的信息,广泛应用在导航、安防、推荐等领域中。随着对新场景新应用的不断开发,对于位置的获取方式和新的需求也更加多样化。无线网络定位可以选用异构无线信号作为介质,从实现方式上可以分为:物理层的有源定位、无源定位和非测距范围定位等。本文针对不同覆盖尺度下对不同目标的定位需求,充分挖掘物理层接收信号强度(Re
学位
遥感技术采用远距离非接触的方式,收集地物目标的电磁辐射信息,拓宽人类感知地表的视野范围,已广泛应用于气象观测、资源勘察、城市规划等实际任务中。遥感图像是指记录各种地物电磁信号的图像,包含目标区域的丰富具象信息,直观反映地物分布现状及地物间相互关系。随着终端探测设备和远程传输技术的高速发展,光学遥感图像数量快速增长,空间分辨率不断提升,地物数据逐渐复杂。因此,如何自动解析信息量庞大的光学遥感图像具有
学位
严峻的环境挑战和能源危机使发展燃料电池汽车技术上升到了国家能源战略层面。燃料电池汽车的电源一般由燃料电池和动力电池组成,整车能量流管理策略(Energy Management Strategy,EMS)是燃料电池汽车的关键技术之一,对减缓双电源寿命衰减和降低整车氢耗起到重要的作用。燃料电池老化会导致系统效率的变化,动力电池老化则会导致容量减少和内阻增加,若不及时识别双电源的老化状态并改变相应的EM
学位
编译器作为重要的系统软件,是构建其他软件的核心基础设施之一。典型的编译器可被分为前端、中端、以及后端三个组件,分别完成高级语言处理、代码优化、以及目标代码生成的功能。然而,编译器作为一类软件,同样不可避免会出现缺陷。这些缺陷不仅降低了编译器自身的可靠性,也给被编译的软件带来一定的风险,甚至造成灾难。因此,保证编译器的质量是一项至关重要的任务。编译器测试是保证编译器质量的重要方法之一,其通过生成复杂
学位