论文部分内容阅读
随着互联网飞速迅猛发展,人们的工作和生活方式也已经发生了巨大的变化,互联网时代,信息在互联网上发布和传播,人们通过互联网可以获取到更多的信息,并且每个人都可以是信息的发布者和传播者。多种形式的信息载体的信息充斥着互联网,好的,坏的,真的,假的,使人难以辨认,因此互联网数据的监督和管理的工作变得越加重要。然而在针对互联网数据的研究中,从互联网上的海量信息中发现热点话题,并追踪话题的传播和发展情况,已经越来越受到各方面的关注和重视。互联网是一个庞大的非结构化的数据库,库中的数据类型和数据格式都互不相同,要从互联网上获取数据是一件比较困难的事情,同时要在这样巨大的信息量里发现实时产生的话题,并了解话题的传播过程,追踪话题更是有其现实性的困难。本文以数据采集和话题发现技术为基础,在综合国内外学者研究成果的基础上,通过对业务人员实际应用过程中遇到的问题的分析,研究并设计了基于互联网数据的数据采集,话题生成和话题追踪,并使相关分析人员参与到整个系统的运转过程中,提高了数据采集准确度,话题发现的效率,和追踪话题的精度。为相关部门更好的了解互联网新话题的产生及话题的传播过程起到了辅助作用。本文共分六章:第一章为研究背景、文献综述及论文研究内容介绍;第二章互联网话题发现及追踪的技术基础介绍;第三章介绍了基于互联网数据的话题发现技术的关键技术研究和实现。第四章对基于互联网数据的话题追踪技术进行了研究并阐述了实现方法。第五章:应用上文提出的基于互联网数据的话题发现和追踪的一些实现方法进案例研究。最后,提出结论和展望。本文给出了基于互联网数据搜索引擎和网站内部检索结果的实现,模版获取数据的实现,搜索引擎API数据的获取,及按照相关性排序对数据的筛选,最后给出了传播路径示意图。本文的选题及研究内容来自2009年国家自然科学基金重大研究计划培育课题(No.90924013)“非常规突发事件网络信息认知模式、传播规律及预警机制研究”。