基于MapReduce的Web文本挖掘系统的研究与实现

被引量 : 12次 | 上传用户:kisswc69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网媒体时代的成熟和完善,越来越多的媒体信息开始在通过这种快捷、廉价的方式进行发布传输,网络上的信息数量异常庞大,并且伴随着对互联网应用的深入,正在以惊人的速度增长。搜索引擎可以帮助我们从互联网上获取较为准确的相关信息的网页,但是获取的信息比较初级、宽泛,无法确认这些信息的内在关联和实体模型,仍然需要进行进一步的分析加工。这时候一个可选的方法就是借鉴通用的网络分析的方法,对实体化后的异构web信息进行关系挖掘以及模型分析,以发掘出其潜在的、有价值的知识。本文主要研究MongoDB分布式数据库和Hadoop分布式计算框架,并基于MongoDB的数据建模和Hadoop的MapReduce计算设计高效的Web新闻实体分析方案,具体的研究工作以及内容包括:1、采取基于XML分析的方法,对搜狗实验室的Web新闻数据进行半结构化分析,提取相应的信息,并在MapReduce框架下对文本内容进行分词处理,并利用TF-IDF算法计算关键词权重,提取文本特征表达式。2、基于MongoDB的数据模型以及并行处理,结合关系网络分析算法,使用点度中心性算法分析单个实体节点在实体关系网络中的中心势,以实现对新闻主题实现核心挖掘;结合凝聚子群分析,挖掘出相互之间联系比较紧密的小团体,构建实体间的块模型。3、应用基于文档的非关系型数据库MongoDB,利用其强大的建模能力,设计能够描述文本特征的数据模型,并结合Hadoop的MapReduce并行计算框架,在J2EE的架构下,完成对Web新闻的分布式存储和计算平台的设计和搭建,并对所获取的分析结果利用JUNG技术进行展示。
其他文献
随着互联网业务范围的不断扩大和互联网用户的急剧增多,互联网压力日益增大。具有良好的网络感知能力和智能决策能力的新型未来网络逐步成为了业界研究的热点。网络流量感知
毛细管电泳(CE)方法是近十几年发展起来的一种分离技术,目前已成为分离科学中最活跃的方法之一。与气相色谱(GC)和液相色谱(LC)等常用的分离检测方法相比,具有方法经济环保、分离效率
模型预测控制是基于预测模型、滚动优化、反馈校正三大基本原理的先进计算机优化控制算法。随着工业过程控制要求的不断提高,传统的PID控制器已经难以满足复杂工业过程的控制
随着经济的发展和人们对科学管理的重视,管理控制研究的主题与方法不断与时变迁,并越来越受到理论界的重视。本文以国外A类以上(包括A类)期刊40年来(1971~2010年)的管理控制文
本文分析了在山西某电厂进行的大气环境测试中用两部激光测烟雷达同时分段对210米烟囱排放的烟羽探测的资料,并对几个常用的、有代表性的烟气抬升高度计算式进行了比较分析。
本文基于产业生命周期理论,从投入、产出等角度分析了中国风电产业及不同类型风电细分行业所处发展阶段,认为其发展处于成长阶段,并向成熟阶段过渡。以我国30个风电企业为样
随着近几年国内经济迅速发展,国内的汽车数量也成倍增加,道路交通问题面临着前所未有的压力,为了缓解这一状况,世界各国争相研究智能交通系统。除了对道路进行扩充,修建立体
本文在分析1996~2010年中国28个省区碳排放增长差异的基础上,系统检验了人均碳排放及碳排放强度的敛散性。同时,对碳排放与经济增长两者增量之间的关系进行了分析,得出以下结
案例二:高温期防止变天、水质老化致花白鲢死亡选择前进村李泽明的池塘,具体情况见下表1。对于水质老化的池塘,3102中光合细菌的营养竞争,可以促使老化藻种死亡,同时其又可以腾出
动态评估生态系统碳储量的影响,有助于揭示全球变化对生态系统碳循环的驱动机制,同时为生态系统综合管理提供决策参考。采用InVEST模型,结合森林资源清查资料(1992,2007,2012