基于Hadoop的新闻事件挖掘技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:arsenallei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛普及和大数据时代的来临,如何快速有效的获取有价值的信息成为摆在人们面前的一大难题。事件挖掘的任务是利用计算机自动地从无序杂乱的数据流中发现事件信息,其在一定程度上为信息过载提供一种有效的解决方案。通过事件挖掘技术可以提高人们获取信息的效率,增加人们访问互联网的体验度。因此,近年来事件挖掘渐渐成热门的研究课题。  中国Web信息博物馆(Web InfoMall)是在国家973和985项目支持下,北京大学网络实验室开发建设的中国网页历史信息存贮与展示系统,现已保存了2001年至今仅90亿的中文网页数据。面对如此庞大的历史数据,以事件为线索进行挖掘能够避免用户被如此大量无用的信息所“淹没”。本文针对InfoMall中存储的海量历史数据对事件挖掘技术和Hadoop平台移植进行了研究和实现。本文的研究工作主要包含以下几个方面:  1.本文针对InfoMall中时间跨度超长的特点,在基于二状态机方法的基础上进行了改进,提出了一种基于滑动窗口的突发特征检测方法(AdBurst)。该方法解决了不适合长期数据上进行突发特征检测的缺陷。  2.本文针对InfoMall中新闻事件规模分布不均匀的特点,提出了一种基于两阶段聚类的新闻事件挖掘方法(TSEM)。第一阶段主要面向大事件进行挖掘,而第二阶段引入一些其他的强特征进行二次挖掘,其主要面向中小事件。该方法解决了仅面向于热点事件而忽略中小事件挖掘的缺陷。最后,本文通过详细的实验对提出的方法进行了评测分析,验证了其有效性。  3.本文针对InfoMall海量数据的特点,设计并实现了基于Hadoop的新闻事件挖掘框架。该框架结合了本文提出的的AdBurst方法和TSEM方法,解决了滑动窗口和时间分片在分布式操作的难点。最后,本文通过性能测试验证了该事件挖掘框架的有效性,并将其应用到基于Web InfoMall的历史新闻事件摘要系统中。  
其他文献
随着信息科技的飞速发展,人们的生活已经越来越离不开信息与网络所带来的便利,尤其是近十年来计算机网络给全球提供了巨大的社会和经济效益,计算机网络业已成为人类社会的一
以往对程序语言的形式化验证不能与类型系统相结合,推理程序的规则依赖于确定的类型。  这篇论文将尝试抹去类型与断言的界限。本文将在分离逻辑的基础上,向状态中引入关于类
该文在对信息检索的发展和现存的问题的分析的基础上,结合分布式人工智能领域的最新研究分支——多Agent(MAS)技术和当前的信息检索技术,研究和设计了一个多Agent合作的信息
因特网上存储的数据与信息以前所未有的速度剧烈膨胀,带来了"信息过载"和"信息迷向"等现象,促使对信息过滤的研究成为热点.通过对该文的处理,用户行为的探测等手段,信息过滤
云计算是一种基于互联网的软件开发、交互与运营计算模式,在能耗、成本、扩展性、可靠性等方面具有明显的优势。PaaS(Platform-as-a-Service:平台即服务)是云计算的三种服务模
GIS技术是融计算机、地理、测量、网络、信息管理和应用对象知识等于一体的一门综合性边缘学科和应用技术,GIS产品在目前已进入产业化和商品化阶段.城市是地理信息系统应用最
摘要 在过去的几十年间,如何按时、按预算生产软件产品成为软件工业面临的一 个主要问题。在软件开发中引入工程方
开发交互式三维图形程序是充满乐趣和富有挑战性的工作.随着图形标准OpenGL在Unix与PC平台的广泛应用,越来越多的3D应用程序采用OpenGL作为支撑库.OpenGL提供了数百个库函数,
随着计算机网络技术特别是Internet技术的发展,网络安全日益受到人们的重视。网络环境中的数据安全传输协议,对于应用的安全性起着非常重要的作用,已经成为影响网络进一步发展的
计算机技术的发展方向是使人类在计算机环境下能自然而流畅地表达概念,迅捷地传递思想,并以符合人的感知和认知过程的方式对概念进行加工,逐步实现从人类利用计算机只能以定量计