论文部分内容阅读
随着互联网的广泛普及和大数据时代的来临,如何快速有效的获取有价值的信息成为摆在人们面前的一大难题。事件挖掘的任务是利用计算机自动地从无序杂乱的数据流中发现事件信息,其在一定程度上为信息过载提供一种有效的解决方案。通过事件挖掘技术可以提高人们获取信息的效率,增加人们访问互联网的体验度。因此,近年来事件挖掘渐渐成热门的研究课题。 中国Web信息博物馆(Web InfoMall)是在国家973和985项目支持下,北京大学网络实验室开发建设的中国网页历史信息存贮与展示系统,现已保存了2001年至今仅90亿的中文网页数据。面对如此庞大的历史数据,以事件为线索进行挖掘能够避免用户被如此大量无用的信息所“淹没”。本文针对InfoMall中存储的海量历史数据对事件挖掘技术和Hadoop平台移植进行了研究和实现。本文的研究工作主要包含以下几个方面: 1.本文针对InfoMall中时间跨度超长的特点,在基于二状态机方法的基础上进行了改进,提出了一种基于滑动窗口的突发特征检测方法(AdBurst)。该方法解决了不适合长期数据上进行突发特征检测的缺陷。 2.本文针对InfoMall中新闻事件规模分布不均匀的特点,提出了一种基于两阶段聚类的新闻事件挖掘方法(TSEM)。第一阶段主要面向大事件进行挖掘,而第二阶段引入一些其他的强特征进行二次挖掘,其主要面向中小事件。该方法解决了仅面向于热点事件而忽略中小事件挖掘的缺陷。最后,本文通过详细的实验对提出的方法进行了评测分析,验证了其有效性。 3.本文针对InfoMall海量数据的特点,设计并实现了基于Hadoop的新闻事件挖掘框架。该框架结合了本文提出的的AdBurst方法和TSEM方法,解决了滑动窗口和时间分片在分布式操作的难点。最后,本文通过性能测试验证了该事件挖掘框架的有效性,并将其应用到基于Web InfoMall的历史新闻事件摘要系统中。