论文部分内容阅读
随着计算机和网络技术的飞速发展,越来越多的人们开始在网络上搜索他们所需要的信息。然而,在网络上,许多的广告和不相关的链接嵌入在所需的信息中,使有用信息很难从无用信息中分离出来,这在一定程度上加重了网页噪声,使有用信息产生飘逸,它们严重影响着搜索引擎的检索结果,因此网页信息抽取技术应运而生。对信息抽取的现状进行分析可以发现,模板技术提供了一个很好的信息抽取途径。 本文介绍了网页信息抽取技术的发展历史、操作原理和相关技术,详细分析了现有的页面抽取方法的优点和不足,总结出基于模板的站点信息进行抽取时存在两个关键性质: 性质一:多个网站包含统一实体的页面。此外,一个跨页面的实体的属性值是本质类似的。 性质二:在一个网站的网页有一个类似的结构即符合一个共同的模板。 其中性质一意味着有跨网站的冗余内容,可以利用此实体内容的冗余,从一个站点中提取,以确定重叠的实体在不同的网站页面的属性值。性质二意味着属性值出现在一个网站的页面上的固定位置,故可以利用位置内容的冗余,因此,一旦确定了一个网站若干页的属性值,就可以推断出它们在网站中的具体位置,使用这个方法从该网站的其余页面中提取属性值。 基于此,本文提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库,然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,而进行了一系列相似性度量;为了过滤掉噪声,在那些基于模板的网站发现并应用了该属性的实际值。通过大量数据进行实验表明,本文提出的方法能够更有效地抽取网页信息。