面向微博的数据采集和分析系统的设计与实现

被引量 : 32次 | 上传用户:lovetianbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的兴起,微博已成为了人们相互交流最重要的场所之一。在微博中,人人都可以发出自己的声音,也可以听到别人的声音,因此形成了巨大的信息量和信息碎片化的特点。本文针对微博的这些特点,设计并实现了面向微博的数据采集和分析系统。主要工作是在获取微博数据的基础上,仿真并分析微博的网络结构,确定微博用户的权威性并完成了热门微博和热门词汇的挖掘。具体而言,本文主要完成了以下工作:Ⅰ.研究了目前网络爬虫的设计和应用技术,在此基础上,设计并实现了一种可根据数据种类的不同,创建多种爬虫的数据采集系统,研究人员可使用此系统,按需求抓取不同种类的微博数据用于研究。此外,在爬行过程中,一方面使用多线程技术大幅提高爬虫的效率,另一方面,创造了多AppKey复用机制,突破了新浪对API调用频率的限制,保证了爬虫可以连续不间断的工作。实践表明,此系统连续爬取3天即可抓取300万个微博用户关系;Ⅱ.深入分析了微博网络中的用户关系网络的特点,并结合传统的网络节点评价算法,提出了“相对权威度”和“用户活力”两个新的概念,并使用这两个概念完成了对微博用户的重要性评价。实验表明,新算法的评价效果比传统算法提高了20%以上,且评价结果更合理,更符合实际情况;Ⅲ.提出了一种从转发和评论两个维度计算一条微博热门程度的方法,保证了评价的准确性。另外,提出了使用传播树的层数对用户权威度进行修正的方法,使得评价更加贴近实际。在完成了热门微博的挖掘后,使用文本处理方法,完成了热门词汇的提取。综上,本系统是一个集微博数据采集、微博用户权威度评价和微博热门内容发掘于一体的综合性软件。软件中的数据实时更新,研究人员可以使用此软件进行微博数据的查询、微博用户权威度的查询;普通使用者也可通过此软件查看当前微博中热门内容。
其他文献
渎职罪是一种特殊类型的犯罪,具有常见性、复杂性等特点。《刑法》用专章对其加以规定,足以说明了该类犯罪的重要性。近年来,有关渎职罪的研究文章鲜见于篇,在渎职罪的认定和
本研究通过建立填海造地用海定级指标体系,采用多因素综合加权法对江苏示范区进行海域定级。研究结果表明:1江苏省全海域填海造地用海共划定了9个级别,面积最大的2级海域占20
本文以“新浪微博”为研究对象,在对新浪微博进行传播学的界定、对其发展历程和特征进行梳理之后,进行了新浪微博受众的构成、群体特征和传播特征的概述,从而进一步分析新浪
2009年福建省为建设海峡西岸经济区、推动区域发展,决定设立平潭综合实验区作为海峡西岸科学发展的先行区和示范区。2011年11月国务院正式批准《平潭综合实验区总体发展规划
近几年,随着《江苏省"十二五"海洋经济发展规划》的颁布,江苏沿海各市县大力发展海洋经济,截至2013年,江苏省的海洋生产总值达到5 180亿元左右,同比增长10.2%。海域评估在海
微博是Web2.0时代基于用户关系的信息发布、分享和获取的开放式平台。依靠庞大的用户数量和背对脸式的弱关系,微博的传播表现出爆炸性,是一种具有核裂变式传播能量的病毒式传
本翻译实践报告是以《说话的艺术》的序言和第一章作为日汉翻译文本进行的。《说话的艺术》是由齐藤美津子编著于1968年出版的。《说话的艺术》这本书主要通过生活中常见的事例讲述了有关科学交流的知识。译者希望通过本次翻译实践,能够加深对交流的理解,同时也希望在奈达的功能对等理论和翻译技巧的应用方面积累经验。本实践报告是由翻译实践的概要、理论框架、翻译实践的过程、案例分析、翻译实践的难点和对策共五部分构成。
组态软件,在过程控制与数据采集等工业控制领域有着广泛的应用。它提供了简单方便的图形开发环境,通常各种组态软件都包含了丰富的图元(也可以自定义图元),能够通过简单灵活
<正>1概述江苏省是农业大省,粮食生产以稻麦轮作为主,其中水稻种植面积223.4万hm2,单产535kg,小麦173.47万hm2,单产314kg,还有玉米37.87万hm2,单产347kg。按照水稻、小麦、玉
话语权是公民提出建议、发表意见的权利。微博时代的到来、沟通渠道的拓宽为大学生话语权的实现提供了良好的物质基础。本文根据话语权的实现程度,提出话语权实现的“三个层