论文部分内容阅读
新浪微博自从2009年8月运营以来,逐渐成为一种信息即时分享和信息交流的平台,同时也是反映网民现实生活中点点滴滴;分享并发现人们周围的趣事轶闻;涵盖最广泛的电商企业与名人。截止到2013年3月,新浪微博注册的用户已经超过5亿,其中包含大量的电子商务企业,比如,京东商城官方微博,淘宝网官方微博等,新浪会对这些电子商务企业微博进行实名认证,认证后界面会出现V用户的字样。这些电商企业主要在微博中进行微博营销,通过微博营销中能够推广企业新产品和新服务;而且微博营销对提高企业口碑起着至关重要的作用。但是,电商用户的社交关系中,往往会出现一些僵尸粉丝和网络水军用户,这些用户大多都是机器在转发微博、评论,是一种非人用户的行为,由于他们的存在直接影响到微博营销的效果和作用。所以,本文根据电商用户的跟随与被跟随的社会关系以及电商用户的社交行为来度量该电商用户在社交网络中的重要程度;对于微博营销、优化微博信息、整合传播;对于我们深入理解微博发展方向和促进互联网经济发展具有非常重要的意义。本文的主要工作有以下的几个方面:第一方面,新浪API结合网络爬虫获取数据。传统的网络爬虫获取互联网上的数据的方法需要先下载大量的网页到本地,然后从页面中提取需要的数据,但是这种方法需要爬取页面的数量巨大,在不下载大量页面时无法有效的获取批量指定的数据信息,并且新浪微博在2013年3月改变了通过浏览器登录用户时的加密算法,所以传统的爬虫程序无法完成数据获取的任务。而新浪API接口虽然能够弥补这个不足,但是新浪服务器对不同级别的授权用户,对允许访问接口的频率做了不同的限制,故无法一次性完成数据获取的工作。所以本文提出一种API与网络爬虫结合的方法获取新浪微博中电商用户的数据。第二方面,并且本文使用了一种非关系型数据库MongoDB进行数据的存储。这种数据库在存储类似于HTML这种半结构化的数据结构的要比传统的关系型数据库方便。第三方面,对微博电商用户关系的聚类分析。由于电商用户的社交关系中,往往会出现一些僵尸粉丝和网络水军用户,这些用户大多都是机器在转发微博、评论,是一种非人用户的行为,所以本文提出采用K均值聚类算法将电商用户的社交关系进行聚类,去掉僵尸粉丝和水军用户的这种非人为社交关系,剩下电商用户较真实的社交关系。第四方面,本文基于传统的线性计算微博节点影响力方法提出一种新的度量电商用户节点影响力的计算方法。新算法需要输入通过聚类完的真实用户的社交关系数据进行计算,然后利用统计学方法进行验证。