基于SOM—K-means的天涯BBS水军帖的聚类分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:daihongjun2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现和普及给人们的生活带来了翻天覆地的变化,各种各样的网络论坛极大地拓展了人们信息交流和分享的渠道。然而,网络水军混杂其中,大大降低了网络信息的真实性和有效性,干扰了舆论的真实走向,甚至引发网络的信任危机。因此,了解水军群体的特征、如何识别水军帖对治理网络水军现象具有重要意义。本文从网络水军活跃的天涯BBS入手,抓取若干热帖的特征属性数据,首先进行数据预处理,通过变量相关性分析提出用户主页的注册日期、登录次数和粉丝数为三个有效聚类变量。然后,以自组织映射神经网络(SOM)聚类为预处理,找出合理聚类数N的区间值和最终聚类中心,将其作为K-means聚类的聚类数和初始聚类中心,实现SOM K-means两阶段聚类分析,以提高聚类的精确性。从聚类的视角发现水军群体的注册日期明显集中于个别日期,其粉丝数、帖子数较少,各变量数据的相似性明显,用户ID命名规则异常等特点,并提出从注册日期的集中性、各变量数据一致性、前两页顶帖用户的注册日期集中程度和用户ID命名规则等四个方面识别水军帖,并以实例说明了该规则能够有效应用于水军帖的识别。最后,提出本研究的不足之处和未来研究方向。综上,本文按照数据的获取、处理、分析和应用的思路来组织内容,从聚类视角研究BBS帖子用户的属性特征,重点总结水军群体的特征表现,为水军帖识别提供一种有效方法。
其他文献
目的探讨凋亡酶激活因子1(Apaf-1)、p53和Ki-67在结直肠腺瘤、结直肠癌组织中的表达情况。方法采用SP染色法,检测结直肠癌、腺瘤组织中Apaf-1、p53和Ki-67的表达情况。结果结
7月15日,人民日报四版刊登湖北竹溪县一位读者的来信,呼吁从废纸堆中抢救古书画。来信反映该县公安局、法院等单位,由于不懂古书画的重要,已经烧毁了不知多少。目前,还有一
若干年前,我得了一种怪病,遍寻良医均不得治.就在我心灰意冷的时候,上苍让我碰到了一位高人.那是一个想来有点传奇色彩的邂逅.在去北京的列车上.故事的过程在此不赘,单表结果
随着信息和知识经济的迅猛发展,知识对区域创新系统创新和经济活动及产出的作用逐渐增强。知识溢出成为解释产业集聚现象以及创新和经济增长的至关重要的概念。研究区域创新
根据山西日报的倡议,河北日报、山西日报、河南日报、内蒙古日报、天津日报和北京日报,二月二十九日至三月九日在北京召开了六报协作竞赛会议。在这个会议上,讨论了当前报纸
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
工序能力指数是用来评价工序质量的统计工具.该文围绕三种应用最为广泛的工序能 力指数C、C和C进行了初步的研究.文中对三个工序能力指数进行了深入比 较,指出C对质量特性值
该文主要研究设计湖南省经济信息框架和运行机制,包括全省范围内科学合理的信息机构设置和宏观信息控制中心的建设,信息采集、交换、综合、分析、发展和反馈,为政府宏观调控
本文通过对荣华二采区10
李玉鸿人民中国杂志社美术编辑 李峰新华通讯社《半月谈》杂志 总编辑--一一—一——严荣工江苏省江都县广播电视台副万忆聋吉林日报记者部主任台长-王艾生人民日报山西记者