论文部分内容阅读
网络信息抽取是指从半结构化的html网页中,抽取出正文、作者、时间等关键信息。网络信息抽取是包括搜索引擎、舆情系统、推荐系统等在内的数据分析系统的基础支持技术,用于从采集到的网页中抽取出结构化的关键信息,为上层的数据分析、数据展示提供高质量的基础数据。动态网页是指由网站后台程序根据数据库中的数据与独立的展示模板动态生成的html网页。因为动态网页数据与展示隔离,使得数据的组织与数据的展示都更加灵活与可维护。因而现代网站,尤其是大型网站,也都越来越多地开始采用动态网页技术。传统的动态网页抽取方法,都对动态网页类型进行了诸多限定,使得算法只能适用于一些特定的动态网页。同时,这些算法并没有考虑动态网页的模板变化,也没有相应的抽取失效检测方法。因此,本文致力于研究通用的动态网页的自动信息抽取方法,以及对应的模板失效检测方法。 首先,根据动态网页的生成原理,本文提出了以动态网页结构相似性与内容差异性为基本特征的动态网页数据记录识别方法,并在数据记录识别的基础上,提出了结合模板匹配与接口识别的属性识别方法,用于从数据记录中识别出正文、作者、时间等关键属性信息。 然后,针对模板失效的问题,本文在传统模板失效检测的基础上,结合动态网页的特点以及本文的抽取算法,提出了分阶段的模板失效检测方法:在抽取阶段,进行基于结构的快速失效检测;在抽取成功后,进行基于内容统计分布的模板失效检测。 最后,基于本文的抽取算法与模板失效检测方法,结合实验室自主开发的网络信息采集模块,设计了动态网站自动获取原型系统。 实验结果表明,本文的动态网页抽取算法可以在多种类型的动态网页下均取得良好的抽取效果,对应的模板失效检测方法也可以及时准确地发现模板的失效,保证抽取的可持续进行。因此,本文的研究成果具有很好的应用价值。