基于Hadoop微博分类系统的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lulaiyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代网络技术的不断更新,适合人们进行交流的平台也在逐渐增多,目前使用比较广泛的平台有微博、微信、QQ等。本文主要以微博为研究对象,使用最为广泛的微博是新浪微博,近些年微博的使用人群在逐渐增多,访问微博的数据量也在突飞猛涨。微博具有长度短、传播速度快、影响范围广等特点,因此如何在海量的微博文本信息中搜索查询出有研究价值的信息和资料成为国内众多学者研究的热点。本文从实际出发,根据微博的文本特点选取微博文本信息网页抓取的方法,本文选用的方法是首先搜索出站点使用的地址,然后根据地址全面查询该地址上的信息,并通过一定的技术进行解析,解析的方法一般采用HTML网页解析技术,最后将获得的文本信息存储到数据库中。在获取微博文本信息时,难免会有重复微博或者广告微博,这里采用一定的算法将无用的微博信息过滤掉,从而提高微博信息分类的准确性。接下来将存储在数据库中的微博信息文本进行预处理、文本表示、特征提取以及分类器评价等一系列操作。考虑到微博文本数量庞大可能导致微博分类系统运行速度缓慢的因素,本文引进了Hadoop分布式集群,大大提高系统的运行速度以及数据处理的准确性。本文设计的微博分类系统是基于MapReduce编程VSM算法的并行化研究,该算法的使用能保证训练微博文本语料进行分类的准确率。经过系统的测试证明,本文设计研究的基于Hadoop技术的微博文本分类系统进行文本分类的准确率得到大大提高,分类的运行速度也得到质的飞跃。因此本文在微博分类研究领域迈出坚实的一步。
其他文献
随着我国经济的迅猛发展,我国众多企事业开始启用会计集中核算制度,以该制度来实现资源的有效配置,以达到加强管理、降低成本、增加盈利的目的。但是就目前来说,尽管会计集中
语言与性别研究是社会语言学研究的重要课题。本研究关注男女性在批评和批评回应中使用的不同策略,试图揭示批评中男女会话风格的规律性和差异性,从而提高交际双方对此规律和
本文首先研究了与“请求”这一言语行为相关的理论,包括礼貌,言语行为,语言间接性;介绍了国外的CCSARP项目对请求策略在六种语言中的实验和研究,其结论认为在这六种语言中规
是非问句是疑问句的基本类型之一。它由陈述句的基本结构形式带上疑问语调,有时可附带特定的疑问语气词等构成。本文着重从历时角度考察了是非问句的发展演变状况。上溯秦汉,
现代汉语普通话中存在以“P V-起来(S’)”为语义关系的句式。结合句式,“-起来”首次得到了专题讨论。以“-起来”为表征的后置条件情态标记和后置被动语态标记首次得到接触
口腔粘接学是现代口腔修复学中最活跃的研究领域,树脂基材料自身无抗菌活性,表面容易形成菌斑,在粘接操作完成后,细菌及其代谢产物容易进入粘接界面微渗漏间隙中,破坏粘接界
设计了一种基于多层电阻膜和超材料的超薄宽频吸波体模型。该吸波体由两层含介质基板的电阻膜片和一层一阶Minkowski分形双方环(minkowski fractal double square loop,MFDSL
随着社会的发展,广告现象已深入到社会的各个角落,成为人们日常生活中不可缺少的部分。广告语是广告信息中最重要的载体。广告语经过长期的发展,已经成为一种独立的语体。因
目的:探讨在心功能正常情况下不稳定型心绞痛( Unstable angina pectoris,UAP)与稳定型心绞痛(stable angina pectoris,SAP)患者血浆N-末端脑钠肽前体(NT-proBNP)浓度的差异,
从氧化、羧基化、酯化、接枝共聚、醚化等改性方法入手,对淀粉絮凝剂的制备和应用进行了介绍,对比分析了各工艺的特点,总结了面临的问题,展望了今后的研究方向。指出:进一步