基于树形算法的社交网络用户真实性分析

来源 :中国市场 | 被引量 : 0次 | 上传用户:wyslymx2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]在网络日益发展的现代社会,微博已经成为了人们日常生活中非常重要的沟通和交流的工具,人们在微博中建立了庞大的社交关系网。随着微博优势不断的显现,其缺点也不断暴露:广告的泛滥,虚假用户的不断滋生使得微博的可信度不断降低。文章通过对新浪微博用户数据特征进行分析,从用户特征权重的角度结合数据挖掘中常用的决策树算法,规则算法和Apriori算法进行结果比对,从而得出判断新浪微博用户真实性的最优算法。
  [关键词]社交网络;用户特征;数据挖掘
  [DOI]1013939/jcnkizgsc201913195
  1前言
  新浪微博是目前流行的一种网络社区,已经逐渐成为人们在网络中沟通交流及傳递信息非常重要的工具之一。截至2017年9月,微博月活跃用户共376亿,与2016年同期相比增长27%,日活跃用户达到165亿,较去年同期增长25%。在微博不断发展的同时,我们也发现微博逐渐显现的弊端,垃圾用户在微博用户中的数量不断增加,他们是发布虚假信息和广告的罪魁祸首,更有甚者利用这些虚假的账号获取别人的照片和资料来达到其他目的。如何筛选添加微博用户成为大家关注的问题。根据媒体的相关报道,新浪微博实际的真实用户数量不到注册用户数量的50%,但这还不算单用户多账号和一些垃圾用户的情况,按照业内人士的看法,目前每天活跃在微博平台上的真实网民已经不足5000万人。
  垃圾用户数量的增加给微博上真实用户的信息安全带来威胁,同时也增加了微博的负载压力。文章重点讲述如何站在用户的角度,利用有限的用户前台信息,结合数据挖掘中常用算法得出的结果来进行对比分析,从而判断出鉴别新浪微博用户真实性的最优算法。
  2新浪微博用户特征属性选择
  社交网络是由一组个人或组织所组成的虚拟的社会关系。希望通过对社交网络中相关用户数据的分析,挖掘出用户的有效信息,进而可以通过有效的数据挖掘方法来判断出用户的真实性。本文对新浪微博账户的粉丝以及关注用户等信息数据进行收集整理和分析得出了十五项新浪微博用户的特征属性(Attributes)。其中包括:是否有头像、头像类别、用户性别、简介是否完备、关注人数、粉丝数、发布微博条数、个人资料项目数、勋章数量、等级、活跃天数、信任度、发布内容是否超过半数为转发,相册数以及与作者的共同好友数。
  3最优算法研究与选择
  31实验整体流程
  文章收集了部分新浪微博账号中用户的相关数据,根据这些数据,利用数据挖掘中非常有效的工具Weka,尝试不同的决策树算法[1]和规则算法,来判断微博用户是否是真实存在。同时将利用Apriori算法,改变数据的置信区间、确信度,来观察最佳关联规则。本文中将获取的新浪微博用户特征数据运用到决策树算法,规则算法以及Apriori算法中[3],意图寻找出最适合用来判断用户真实性的算法。
  32算法的选取
  选取了5种最常见的决策树算法,3种规则算法以及Apriori算法运用于微博用户数据中;其中包括J48、FT、LMT、LADTree和ADTree五种决策树算法,JRip、PART和Ridor三种规则算法;根据实验结果发现,使用以上几种算法并没有得出理想中的强关联规则。
  4实验分析
  NodeXLs是一款可视化的社交网络分析软件,作者使用NodeXLs对数据进行了简单的可视化分析。利用NodeXL分析相关数据发现用户最集中的集合,表示的是和作者的微博账号拥有0个共同好友,几乎百分之一百的虚假用户出现在该区域。
  将重新定义的参数运用到算法当中,由表2的结果可以看出ADTree、JRip算法都拥有比较高的准确度,正确率和较短的运行时间,通过此次实验可以看出,在判断微博用户是否是真实的问题中,ADTree和JRip算法有较好的实用性。
  5结论
  社交网络发展至今,已经有很多人研究出了如何有效判断社交网络用户真实性的模型。在文章中,希望可以发现判断社交网络用户真实性的更加高效的方法。和其他实验不同之处在于,将不同的可以产生“规则”的可行性的算法在准确度,效率和规则的有效性方面进行了比较,更加清晰的将适合于挖掘出真实用户的算法选择出来,为今后社交网络发展和网络用户信息的真实性判断提供重要的依据。
  参考文献:
  [1]程克非, 程蕾, 黄永东. 基于J48决策树算法的水质评价方法[J]. 计算机工程, 2012, 38(11):264-267.
  [2]李振华. 基于Apriori算法的Weka数据挖掘应用[J]. 科技广场, 2008(1):106-107.
  [3]AGRAWAL A, CHOUDHARY A. Identifying hotSpots in lung cancer data using association rule mining[C]// IEEE, International Conference on Data Mining Workshops. IEEE Computer Society, 2011:995-1002.
  [4]FONG S, ZHUANG Y, HE J. Not every friend on a social network can be trusted: classifying imposters using decision trees[C]// International Conference on Future Generation Communication Technology. IEEE, 2013:58-63.
其他文献
潍坊市坊子区黄旗堡街道逄王一村地处美丽富饶的潍汶两河冲积平原,全村共有220户746口人,耕地面积960亩。1988年,全村年人均收入不足1000元,贫穷显而易见。为了改变当地的贫穷面貌,1988年当选为逄王一村党支部书记的周顺治开始带领干部群众调整农业结构,致力西红柿产业发展。特别是近两年,乘着乡村振兴战略的实施和新旧动能转换的东风,周顺治扑下身子真抓实干,带领广大群众发展西红柿大棚、建设特色园
期刊
沙棘(Hippophae rhamnoides L.)是胡颓子科沙棘属的落叶灌木或小乔木,其果实是我国古代藏、蒙医用来治病的常用中药,含有丰富的营养成分和生物活性成分,在抗疲劳、抗衰老、抗血管硬化、抗辐射、促进新陈代谢、抗坏血病等方面有突出表现,已经成为国内外医药界,及保健食品、化妆品等行业重点关注的可食性植物资源。  ICP-MS具有检出限低、干扰少、分析速度快等特点,比较适合用于检测药食产品中
期刊
杜仲叶中含有杜仲黄酮、绿原酸、杜仲多糖、多酚等多种对人体有益的功能性成分,如杜仲叶黄酮有降血压、保护心脏、抑菌、抗氧化、抗肿瘤的效果。由于杜仲是“药食同源”物质,因此可开发杜仲叶用于食品医药领域。本实验以新鲜杜仲叶为原料,经粉碎、微生物发酵、过滤、调配、均质、喷雾干燥等程序加工成杜仲叶固体饮料,以期为进一步开发和利用杜仲这一传统中药资源提供借鉴。  一、材料与方法  1.实验材料。杜仲叶采摘于衡水
期刊
[摘要] 中国新民事诉讼法中的“有专门知识的人”形似美国的专家证人,但又因两国诉讼制度的差异而只能在现有规定基础上对美国专家证人制度进行选择性借鉴,建立准入前的严格审查、参与中的证据开示制度,设置出庭义务并厘清其证明力和采信标准。另外,在与鉴定制度的关系上,可以根据专家辅助人发挥作用的不同进行类型化归纳,使对鉴定意见进行质疑的“鉴定人—专家辅助人模式”和鉴定人缺位情况下的“专家辅助人模式”分别发挥
期刊
摘 要:“粮改饲”政策的提出为农业种植结构调整注入了新的动力。为了解“粮改饲”政策的实施效果,掌握“粮改饲”政策的未来发展方向,以黑龙江省为例进行分析发现,“粮改饲”政策在黑龙江省取得了初步的成效,但当前也遭遇发展瓶颈,主要表现为政策实施之初的目标并未在黑龙江省得到充分地展现,这主要与政策的贯彻落实与当地种植、养殖实际结合的不紧密相关,因此,黑龙江省“粮改饲”政策的发展应因地制宜原则,坚持市场导向
期刊
[摘 要]随着近代中国农村自然经济的瓦解,原有的家庭经济单元融入市场,参与社会分工。市场组织的专业化意味着需要进行更多专用性资产的投入,这使买卖双方都处于获取市场红利和避免对方机会主义行为的两难之中。牙行通过提供居间保障和补偿这一双重机制,有效降低了缔约双方的交易费用,缓解了因契约不完全导致的紧张关系,进而推动了农产品的商品化。在棉花市场,花行通过提供信用保障、公平计量、物流和融资等服务,增强了买
期刊
[摘要]公众满意度是由顾客满意度演变而来的。在建设服务型政府过程中,公众作为政府服务的对象,由接受政府服务后的感受与自身期望感受进行比较,从而对政府服务做出评判。公众满意度作为政府绩效考察的指标之一,对服务型政府的建设具有促进作用。文章结合公众满意度理论,讨论近几年沈阳市基于公众满意度的服务型政府建设过程中存在的问题,并为提升公众满意度给出几点建议。  [关键词]公众满意度;理论述评;政府  [D
期刊
[摘要]面试中能否快速识别出应试者的潜能,并初步判断应试者与岗位的匹配度,很大程度上取决于面试题库的质量。基于此,文章阐述了岗位胜任力潛能模型的结构化面试题库建设方法,包括汇编评价要素、标准化内涵和评价内容、建立题库和评分标准。  [关键词]岗位胜任力;潜能;结构化;面试题库  [DOI]1013939/jcnkizgsc201913109  1引言  企业能否在面试中识别出与企业发展需求相匹配的
期刊
[摘要]工程造价管理是建筑工程施工建设中非常重要的组成部分,是工程施工全部资源消耗的一种表现,对施工质量、成本投入、企业可持续发展等方面起到重要影响作用。在工程施工阶段中造價控制工作重要性愈加凸显,文章主要对施工阶段工程造价控制要点进行分析,进一步提升资源利用效率,为我国建筑企业的快速稳定发展提供帮助。  [关键词]工程造价;施工阶段;控制要点  [DOI]1013939/jcnkizgsc201
期刊
[摘要]中式服装品牌通过独特设计与丰富的文化内涵被消费者选择,其在产品风格、品牌个性等方面也与消费者建立了某种层次的情感沟通,使其对中式服装品牌产生信赖感和认同感,逐渐形成购买偏好,成为表达“自我”的实现途径之一。文章总结市场上较为畅销的九个中式服装品牌的个性特征词汇,参考相关学者在品牌个性研究方面的相关方法,总结得出中式服装品牌个性特征词汇表,为建立中式服装品牌个性维度量表等后续工作进行了前期的
期刊