营销类微博用户识别算法设计和模型构建

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:chengxiulong33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着社交网络OSN(Online Social Network)的不断兴起,微博平台也日渐成熟。随着大量用户的涌入,恶意营销用户也随之而来。恶意用户将商品信息在社交网络中大肆传播,诱导用户购买以从中获利。其行为严重污染微博社交环境,影响用户体验。如何从用户量巨大的微博平台中识别出恶意营销用户,一直是恶意用户识别领域需要精细化处理的问题。目前该领域的研究中大多采用集成学习算法。使用人工选取的特征训练模型,而这些方法都不能很好兼顾Stacking组合基分类器的多样性和准确性。另外,结合微博的实际情况发现,恶意营销用户可以细分为营销内容生产者和代理型营销用户。后者的用户属性特征与正常用户接近,因此目前的机器学习算法仅能从特征角度充分识别前者,而对后者无效。该类研究还存在样本偏态分布问题,模型会更偏向多数类。而该类任务应当以召回更多少数类样本为最终目的。论文主要工作包括:(1)提出基于分类精度与主成分特征排序的基分类器融合模型(FI-RankedEMCS)。使用熵值度量个体样本分类精度;通过特征重要性评估,选出每种机器学习模型的主成分特征集,将斯皮尔曼相关系数和成对测度相结合用于评估模型间主成分特征集的差异性,由此保证组合基分类器的多样性。将误分类代价融入决策树节点分裂的信息增益中,用于构建代价敏感决策树,并从中提取多数类与少数类样本的对比模式,构建对比模式分类器Contrast Pattern Cost-Sensitive Decision Tree(CP-CSDT),并将其作为元学习器处理样本偏态分布问题。(2)通过用户-用户、用户-博文、博文-博文三条关系链路构建营销关系网络(RN),将两类恶意营销用户关联起来,使用邻接矩阵将实际问题转化为数学模型,以Stacking模型识别出来的恶意营销用户作为关系图中的已知标签,使用半监督方式对未知标签预测,从而将代理型营销用户识别出来。(3)实现两类模型的搭建与验证,将实验数据用于使用本文新提出融合策略的Stacking模型中,其正确率达到86.3%,召回率达到57.6%,均优于其他随机组合方案。将结合主成分特征差异的基分类器融合模型,与仅使用分类精度作为融合策略的模型对比,当人为调整训练样本数据,弱化某些特征在训练样本中的分布时,前者在召回率上有更好的表现。使用CP-CSDT算法作为元学习器的集成模型准确率达到47.8%,召回率达到68.7%。均优于其他算法元学习器的性能。得出CPCSDT算法可以处理数据不平衡问题。改变训练集正负样本比例,发现其对极度不平衡数据集具有较好的模型稳定性。调整关系网络中不同营销组织已知标签比例,发现其性能依赖于已知标签样本,但可在不过多损失准确率的情况下,召回更多正类样本,且不会过多影响负类样本的识别度。
其他文献
近年来,我国农村地区快递业务量连年攀升。但在我国广袤的农村地区,末端配送体系不完善一直制约着农村快递的发展。特别是在地形复杂、基础道路建设差的偏远山区,传统卡车配送模式已经难以解决农村末端配送难题。无人机的出现给末端配送难题提供了新的解决方案,无人机配送以成本低、速度快、效率高等优势逐渐成为末端快递配送的重要载体,但在实际应用中,由于无人机续航及载重能力有限,只采用无人机单独配送经济效益较低。因此
随着国家稳步实施“走出去”战略以及持续推进“一带一路”倡议,中国建筑企业在境外经营规模持续扩大。然而,在实现国际业务快速增长的同时,部分企业也面临着因文化差异、制度距离等因素产生的管理挑战,一方面严重影响项目的利润空间,另一方面也对企业在海外可持续发展造成阻碍,因此,提升国际工程的属地化管理水平、保证企业在境外顺利经营的需求已迫在眉睫。作为目前境外主要推行的项目管理模式之一,属地化管理既保证了中国
2019年12月爆发的新冠肺炎疫情对我国经济和居民生活产生了巨大的影响,疫情期间人们外出受到限制,因此将无法实现的线下需求转移到了线上,使得我国快递业务量产生了较大的变化。本文在新冠肺炎疫情的背景下,分析了新冠肺炎疫情确诊人数在我国大陆31个省份分布的时间和空间特征,以及在新冠肺炎疫情前后我国快递业务量的差异。在此基础之上,考虑将新冠肺炎疫情的影响因素加入到对我国大陆快递业务量的影响分析中,弥补了
随着我国经济的高速发展,城镇化的进程无形之中被加快,越来越多的人群奔向城市,尤其像北京这样的超一线城市必定会成为大量人群聚集地之一,北京市商品房的价格持续涨高,刚毕业的大学生和刚进城的中低收入者家庭无法承担起高昂的购房费用,为了实现“居者有其屋”的目标,提高保障性住房供给规模成为北京市亟待解决的民生问题。丰台区作为北京的六大主城区之一,在六大城区中丰台区的经济发展处于中等水平,选择丰台区作为案例研
电商平台拥有丰富的商品种类和便捷的购物方式,使消费者更愿意选择足不出户,通过手机APP或电脑挑选心仪商品的消费方式。随着科技的发展和人们对生活水平的期待值不断提高,消费者对于购物体验的要求逐渐增高,如何提升客户满意度,吸引大批消费者下单是电商企业首要解决的难题。订单拣选作为电商配送中心众多环节中的一环,其作业水平是决定商品出库效率的关键因素之一。电商配送中心的各个作业环节彼此影响,订单分批的方式既
近年来全球疫情不断蔓延,国内产品内销不畅,外销受阻导致产能过剩库存积压,制造业供给侧矛盾加深。许多线下企业资金周转中断被迫纷纷倒闭。而对比线上多家电商平台比如网易严选、必要商城、小米严选和京东京造发展C2M模式销量反增不减,焕发了巨大的生命力,该模式以销定产,既可以满足消费者定制化产品的需求,又能扩大内需促进双循环。然而,该模式下定制产品趋向多样化,个性化,对供应链提出了更高的需求,所以快速构建新
近年来,我国快递市场日益扩大,快递员数量已超过300万,每日快件配送量超过了1亿件,飞速增长的市场给物流平台带来了巨大挑战。快件送达时间的预测(即在任意时间点上,预测某个快递员的所有未派送快件的送达时间)是物流平台的一项至关重要的任务。准确预测快件送达时间,一方面可以为用户提供更加准时的服务,提升用户体验,另一方面可以协助快递公司进行区域划分和人员调度,以及帮助快递员进行路径规划,提高派送效率。得
在经济迅速增长和文化繁荣发展的带领下,传媒业也出现了欣欣向荣的发展趋势,传媒行业的健康发展与创新在社会发展中具有重要的作用及地位。但在传媒文化繁荣发展的同时存在一些问题,如最常见的标题党现象。标题党是当前互联网背景下典型的新闻传播乱象,在消费主义、经济主义以及自媒体的利益驱动之下,标题党现象迅速发展。新闻撰写者通过哗众取宠、极具噱头的新闻标题来吸引读者的注意,而这种极具夸张的标题脱离了新闻原本的内
从1978年国内理论界提出了住房商品化、土地产权等观点,到1998年住房实物分配制度的取消和按揭政策的实施后房地产投资进入快速发展时期,再到“房住不炒”的商品房居住属性回归下的平稳阶段,我国的商品住宅开发已走过了40年的历史。随着可持续发展基本国策下的节能减排趋势,中央提出了“用10年左右的时间,装配式建筑占新建建筑面积比例达到30%”的目标,这将在人类建筑史上,特别是装配式建筑史上一次史无前例的
随着工业化进程的加快,全球气候的变暖与环境问题的频发,各国倡导降低能源消耗、减少碳排放。物流配送业也是碳排放的主要来源之一,企业在安排货物配送过程中也要考虑环境方面的因素,从车辆调度路径规划方面考虑碳排放的因素。另外随着城市规模的扩大,城市道路的交通拥堵等状况的频发,以及城市的环保要求下,各个城市对载货车辆的配送都出台了许多管控措施,如限号、限时、限区域配送等。企业要在城市各种限行政策下满足各种客