论文部分内容阅读
随着互联网的蓬勃发展,Web成为全球最大的信息源,且其数据规模仍呈指数级别暴增趋势、数据形式也更显多样化、网页间的时间跨度巨大。用户在不同时间对信息的关注度会发生变化,因此如何在海量数据中快速、准确地提取出有价值的知识信息已成为目前亟待解决的难题。传统的信息抽取技术适用于特定领域小规模数据抽取,且未曾考虑到网页时间跨度因素对信息抽取精确度的影响。本课题从信息抽取时间同步的角度出发,结合分布式计算框架和存储系统,对Web信息抽取技术进行研究。本文通过深入研究Hadoop Map Reduce编程模型和分布式文件系统HDFS,结合复杂网络时间同步机制,采用DOM树路径和模版相结合的抽取规则进行Web信息抽取,运用TPSN-LS算法优化抽取网页数据同步时间的偏差,提出一种改进的网页复杂网络构造算法,最后在Hadoop平台中实现Web信息抽取系统。主要工作如下:(1)结合复杂网络理论和网页特性对信息数据网页进行复杂网络构造研究,面向信息抽取需求对复杂网络的相关参数进行改进及重定义,最后给出Web信息抽取的时间同步实施流程。(2)将HTML网页转化为XHTML文档,并解析形成DOM树复杂网络进行信息抽取的算法研究。提出DOM树Web信息抽取层次模型,把改进后的TPSN-LS算法应用到DOM树Web信息抽取层次模型中。本文Web信息抽取主要研究内容包括页面预处理、DOM树复杂网络构造、定位数据区域和目标数据抽取等。(3)采用Hadoop进行高效率、并行化信息抽取,设计信息抽取系统的功能模块、抽取流程和HDFS数据存储结构,然后对信息抽取系统进行并行化Map Reduce实现,最后在Hadoop平台上对不同数据规模进行多节点实验,实验表明本系统具有良好的准确性、高效性和可扩展性。