基于语义信息与特征选择的社交网络垃圾用户检测技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tianzhiyou258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络平台为用户提供了方便的交流和互动工具,能够即时分享生活中产生的多种多媒体内容。同时,在通信网络和硬件设备不断的发展前提下,社交网络平台也变得越来越庞大。然而,社交网络平台上的大量用户及发布内容的便捷条件吸引了大批网络垃圾用户。虽然国内外研究者提出了许多用于检测垃圾信息及垃圾用户的方法,但是仍存在许多问题,例如建立词库的巨大工作量、基于词的语言特征失效、检测精度及检测效率较低等。为了解决以上问题,本文主要研究社交网络平台垃圾信息及垃圾用户的检测模型,主要研究内容包含以下两个方面:1.针对垃圾用户对文字内容进行伪装导致垃圾词库语言特征不可用的问题,提出一种利用轻量级的双向编码器(A Lite Bidirectional Encoder Representations from Transformers,ALBERT)作为词嵌入模型,双向长短时记忆神经网络与自注意力机制作为分类器的混合模型。该模型首先利用ALBERT将社交网络文本进行词向量转化,接着以词向量的方式输入到双向长短时记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM),经过特征提取并结合自注意力层的信息聚焦获得最后的特征向量,最后将特征向量通过Soft Max进行分类得到用户推文文本识别结果。实验表明,研究提出的模型有更快的预测速度及预测精度。2.针对特征数量过大导致检测效率和检测精确率较低的问题,提出一种基于元启发式算法进行特征选择并结合分类器进行垃圾用户检测的模型。首先,利用二元鲸鱼优化算法分析特征并选择对检测结果影响最大的部分特征组成特征子集,然后将这些特征用于训练分类器,提出的模型可以有效的识别垃圾账户及非垃圾账户。最后,为了证明模型的效率,将该模型与一些现有的先进方法进行了比较,结果表明本模型的检测准确率高于其他两个对比模型,选择出的特征对于分别垃圾用户和非垃圾用户是有效的。
其他文献
甚低频通信技术在军事和民用领域均有重要应用,但通信性能受到大气噪声和窄带干扰的影响。本文研究大气噪声和窄带干扰抑制算法,降低通信误码率。研究表明,大气噪声的概率密度函数具有明显的重尾特征。对此,本文大气噪声建模考虑了三种脉冲噪声模型,即:对称α稳定分布、Class A分布以及高斯混合分布。其次,根据窄带干扰的不同特性,建模分为单频干扰、多频干扰以及窄带高斯噪声。由于脉冲噪声常无闭合的概率密度函数,
学位
随着信息化、经济全球化的快速发展,许多企业为了发展自身的核心业务,将物流业务外包。为了向用户及企业提供完整的物流服务,原本较强的物流企业转型为物流服务集成商,承接客户的物流订单,并将订单中的部分物流任务委托给规模实力较小的物流企业执行。即形成了物流客户→物流服务集成商→物流服务提供商的物流服务供应链模式。但是,由于信息不对称,且物流服务集成商缺乏对物流服务提供商提供有效的激励契约,导致物流服务提供
“药价虚高”是影响我国医疗卫生事业发展的主要原因之一,近年来,我国通过推进国家医疗政策改革,发布了一系列药品集中采购的指导意见,并借鉴国外药品集中采购的经验,开始尝试GPO(药品集中采购组织)模式进行药品集中采购,目前该模式在降低药品价格方面已经取得了一定的成果。自GPO模式试点开展以来,形成了以GPO主导和医疗机构主导的两种不同主导情况下的药品集中采购模式,而在不同的主导模式下供应链绩效存在一定
疫情对人类的健康和发展有着巨大的威胁,当一个地理区域受到重大的传染性疾病影响时,不仅会造成大量的人员伤亡和经济财产损失,还会对人们造成短期和长期的心理伤害。如何快速布局应急医疗设施点以满足疫情后产生的大量医疗需求至关重要。应急医疗设施点的布局不仅取决于各感染区域的需求和医疗资源(如医护人员、医院容量等)的数量,还与患者的心理状况密切相关。本文聚焦于突发疫情,尤其是大规模传染病爆发的情境,在阐述了突
伴随着互联网经济浪潮的到来,我国电商和新零售模式的蓬勃发展,对物流配送服务质量和配送模式需求的增多,导致物流配送市场的需求总量和需求多样性不断增加,给物流配送行业带来了巨大的压力。为了减少人工成本压力以及市场的需求压力,物流业寻求机械自动化、物流智能等方法降低配送成本和提高配送效率。随着无人机行业的成熟,无人机技术逐渐被应用于物流配送过程中。但是对于无人机与物流结合的研究成果较少,而无人机应用于末
我国是自然灾害多发的国家,灾后的应急救援车辆调度问题的研究显得尤为重要。针对强紧迫性和弱紧迫性区域下受灾点需求实时出现的情形,本文探究了考虑快速性和公平性策略的应急车辆实时路径选择问题。强紧迫性区域下快速性策略的目标函数是最小化车辆的服务完成时间及延误成本。在此基础上弱紧迫性区域增加了车辆容量限制的约束,其公平性策略的目标函数考虑到了每一个受灾点的需求量及服务时间。本文主要做了以下两方面的工作:(
中国是电子电器产品的生产和消费大国,电子废弃物环保回收处理面临着越来越严峻的形势。一方面,电子废弃物的产生量逐年增多,年均两位数的增长率。另一方面,电子产品生产者缺乏有效的策略来回收电子废弃物,实现资源最大程度的循环利用。押金返还是有助于生产者承担延伸责任的重要策略,对生产者而言,它可以将消费者的某种行为和权利相结合,比如交回旧产品与取得经济补偿或以优惠价格购买新产品相结合。但是,国内外对于生产者
随着互联网日新月异的发展,人们获取资讯的手段已发生天翻地覆的变化。网络谣言也随着消息的传播在整个社交平台上不断扩散。由于网络谣言存在突发性和短时性的特征,使其影响范围极大,并且使人们陷入恐慌的情绪中。因此,对于网络谣言传播机制的研究成为了学术界研究热点之一。针对谣言传播机理进行量化分析、对影响谣言传播的潜在因素进行挖掘,为舆情部门进行消除谣言、维护社会正常秩序提供了理论支撑。本文从谣言话题宏观多类
目标跟踪是计算机视觉领域的一个重要研究课题,广泛应用在安防监控、军事侦察、人机交互以及自动驾驶等领域。为了减少跟踪丢失的概率,提高目标跟踪的精准度,许多学者对该课题展开了深入研究,使目标跟踪在近年取得了迅速的发展。相关滤波类跟踪算法因其判别能力强和运算速率快的特点而成为了目标跟踪的重要研究方法之一。但受限于复杂跟踪环境下的干扰,相关滤波类跟踪算法在目标尺寸变化、目标遮挡、相似背景干扰以及快速运动等