论文部分内容阅读
互联网从诞生到现在已经经历了近30年的发展,随着技术的不断更新以及移动互联网的发展,越来越多的人们开始使用互联网作为信息来源。社交网络就是在21世纪初兴起的新一代网络信息交互平台。相对于传统的门户网站、电子邮件、IM等信息传播应用,社交网络通过建立类似于真实社会的信息网络作为基础,使用者在社交网络中的身份与社会人的身份十分类似,在社交网络中,使用者可以发布、消费、评论、传播消息,是社交网络信息传播的核心。由于社交网络的社会性,传播方式也类似于在真实社会中信息的传播,其中的信息能够反映当前的社会情况,人们的普遍关注点以及对焦点事件的看法。目前人们可以使用各种方式接入社交网络,随时随地的发表自己的看法,得益于互联网技术的发展,社交网络中的信息也在爆炸性的增长。如何在大量的信息中挖掘出其中蕴含的价值,是目前对社交网络信息研究中的热点。在研究这些大量的信息前,最重要的就是完成一个科学、准确的信息收集系统。收集系统通过定制就可以为信息使用者提供相应的数据,并且保证收集数据的准确性与时效性。在获取到准确的信息后,就可以使用分析技术对其进行分析处理,由于社交网络的社会性,可以通过社会统计学的思想来确立一套基本的分析思想,进行数据挖掘,从而获取正确的结果。本文首先分析了目前各大社交网络中的信息情况,根据不同社交网络中信息的特点,提出了使用Twitter作为信息收集源的收集方法。相对于其他社交网络中的信息情况,Twitter中的信息符合互联网信息传播的理想方式,信息不会有衰减、消耗以及损失。用户通过设定关键字对某信息进行收集,设定收集逻辑。通过系统收集到的信息,本文建立了一个多元线性回归模型来预测某部电影的票房收入,通过MATLAB提供的统计学工具进行详细计算。该信息收集处理平台是一个基于RSSBus的应用,可以按照分布式的方式部署在网络中,通过RSSBus所提供的Web Service接口来暴露服务,系统之间通过网络互相调用。本系统于2011年10月推出了系统的试用版本,目前已经正常运行了2个多月,完成了19部电影信息的收集工作,同时正在收集23部电影信息。从收集到的数据来看,系统所收集到的数据很好的反映了社交网络中信息的特点,经过数学模型的计算,结果误差在20%之间。