微博内容的采集、分析及其可视化研究

被引量 : 0次 | 上传用户:hysywlp2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博、微信等社交媒体的发展,智能终端的不断涌现,这些新兴事物在改变人们生活方式的同时,也带来了体积庞大、多重维度、非结构化的信息数据。多数研究者认为,这些数据是这个时代赐予的宝藏,面向数据科学的研究也愈演愈热。本文从三个方面论述了面向新浪微博数据的研究工作:首先是微博数据的采集,其次是基于用户微博数据的情感新词发现,最后是基于微博转发数据的传播网络可视化研究。(1)针对新浪微博数据采集方法,本文首先对比分析了两种不同的新浪微博模拟登录验证方式,分别探讨了两种方法的利弊。其次,在获取验证之后,介绍了新浪微博四类数据的采集过程,分别为用户个人信息,用户微博信息,用户关注列表和单条微博的转发和评论数据,为后续的研究奠定了语料基础。(2)针对用户的新浪微博数据,由于其口语化、非正式等特点,常常伴有大量情感未登录新词出现,本文基于用户的微博数据进行了词语级情感倾向性判断的研究。首先采用基于统计量的方法,识别微博语料中的新词,然后利用神经网络去训练语料中词语的词向量,获取词语之间的内在联系,最后提出了基于词向量的情感新词发现方法。从实验结果来看,本文的方法具有一定的实用价值。(3)针对新浪微博的转发数据,本文对单条微博的传播过程做了WEB可视化的分析。首先通过微博转发数据,构建传播网络。然后根据转发者个人信息数据,从三个方面:节点的筛选、层次化的信息展示以及交互式功能的设计论述了可视化的实现过程。通过可视分析的方式,简单、快速的找出微博传播过程中至关重要的节点,判断消息传播的影响范围。
其他文献
目的:研究缺血性中风痰瘀互结证动物模型的制作。方法:选用中老龄大鼠,采用高脂饮食,结扎左侧颈总动脉的方法,制作缺血性中风痰瘀互结证模型,观察大鼠一般体征、脑系数、血脂
目的:比较胶原诱导性和佐剂性关节炎制备大鼠关节炎模型的效果。方法:雄性SD大鼠30只,随机分成胶原诱导性关节炎组(CIA组)10只,佐剂性关节炎组(AA组)10只,对照组10只。CIA组
研究目的:外周血造血干细胞是存在于外周血中的一类具有高度自我更新和分化潜能的造血细胞群体。正常生理条件下外周血中造血干细胞的含量约占骨髓中的0.1%-1%,当给予动员剂刺
在现代企业经营管理中,预算管理是核心管理方法之一,主要是它能起到企业资源配置、管理控制、绩效考核等方面的综合作用。目前,预算管理在大多数企业中,都已推广施行起来了,
试卷讲评课是生物学教学中非常重要的课型。本文以初中生物学试卷讲评课为例,结合精准教学的理念、借助信息技术对数据的分析,精准地确定试卷讲评课目标、创建学习材料、开展
社会、文化变迁是近年来民族研究、文化研究的重要领域。随着全球化发展和我国社会转型的不断深入,大众媒介在少数民族地区渐次进入和快速普及,媒介与牧区牧民的联系越来越密
在哲学史上,人的主观能动性问题一直受到学者的广泛关注。然而马克思之前的旧哲学并没能对这一问题给出合理的解释。主观能动性是人所独有的特性,它表现为人认识世界和改造的
采用BASIC语言,编制计算程序,实现优化设计,能快速、准确地选出所需挂轮,从而寻找出缩短齿轮加工的辅助时间和提高生产效率的有效方法
作者采用热分析方法结合考察金相组织、三角试样,研究了热分析参数、共晶团数和白口倾向之间的关系。试验表明,共晶团数和白口倾向之间的关系比较复杂,共晶团数的增加,不一定
冠心病归属于中医"胸痹"、"心痛"、"真心痛"等病范畴,从先秦到清末,历代医家通过数千年的临床实践,积累了对该病的丰富理论认识与宝贵临床经验。当代名中医在继承前人理论的