基于内容冗余的Web信息抽取

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:longlivewebdynpro2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的飞速发展,越来越多的人们开始在网络上搜索他们所需要的信息。然而,在网络上,许多的广告和不相关的链接嵌入在所需的信息中,使有用信息很难从无用信息中分离出来,这在一定程度上加重了网页噪声,使有用信息产生飘逸,它们严重影响着搜索引擎的检索结果,因此网页信息抽取技术应运而生。对信息抽取的现状进行分析可以发现,模板技术提供了一个很好的信息抽取途径。  本文介绍了网页信息抽取技术的发展历史、操作原理和相关技术,详细分析了现有的页面抽取方法的优点和不足,总结出基于模板的站点信息进行抽取时存在两个关键性质:  性质一:多个网站包含统一实体的页面。此外,一个跨页面的实体的属性值是本质类似的。  性质二:在一个网站的网页有一个类似的结构即符合一个共同的模板。  其中性质一意味着有跨网站的冗余内容,可以利用此实体内容的冗余,从一个站点中提取,以确定重叠的实体在不同的网站页面的属性值。性质二意味着属性值出现在一个网站的页面上的固定位置,故可以利用位置内容的冗余,因此,一旦确定了一个网站若干页的属性值,就可以推断出它们在网站中的具体位置,使用这个方法从该网站的其余页面中提取属性值。  基于此,本文提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库,然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,而进行了一系列相似性度量;为了过滤掉噪声,在那些基于模板的网站发现并应用了该属性的实际值。通过大量数据进行实验表明,本文提出的方法能够更有效地抽取网页信息。
其他文献
量子神经网络是基于量子计算的基本原理与传统的人工神经网络而发展起来的一种研究神经网络的新方法。由于其独特的功能在某些问题上表现出来的巨大优势,越来越多的科研人员开
统计学习方法由于可以从语料库中自动的获取语言统计知识以用于构建统计模型,且在鲁棒性、准确性上均有一定的优势,因而在自然语言处理领域中得到了广泛的应用。然而,很多自然语
随着量子计算研究的进展,后量子公钥密码逐渐成为了密码学研究的热点之一。多变量公钥密码学是后量子公钥密码学的研究分支之一。由于多变量公钥密码体制尚未有适当的可证明
随着Web2.0的应用,博客的传播速度得到了前所未有的发展,使其拥有巨大的信息资源。在数目如此庞大的博客系统中,用户想要找到自己最感兴趣的博客或博文,同时博主也想使自己的博客
伴随医疗信息化的普及,医学图像信息的重要性日渐凸显,相关影像信息为医生的疾病诊疗、学术交流、医学教学和科研等提供了极大的支持和帮助。为了达到医疗信息共享,需要对医学影
互联网的普及深刻地影响和丰富着人们的信息获取方式,数字产品作为信息的载体,以音频、视频、文本、图片、软件等形式出现并通过网络传播,满足了人们的各种需求,方便人们的生活需
可周视的全景视场三维显示技术通过光学系统再现三维物体的全景空间光场分布,从而实现对三维物体360度可周视的三维立体显示。它已经成为三维显示领域的一个重要研究方向。本
随着信息化时代的来临,互联网中各种结构化(如web页面)以及半结构化(如电子邮件,XML网页)文本数据规模呈现指数级增长并伴着信息存储技术的飞速发展而累积了海量的文本数据。海量文
随着XML数据库的蓬勃发展,XML文档存储、索引、查询的研究成为热点。由于XML数据具有分支结构多,数据冗长的特点,这给数据的存储和查询带来了极大的不便。因此,如何对XML文档进行
作为下一代Web发展的蓝图,语义Web是目前互联网技术中研究的热点。本体在语义Web体系结构中,位于从文档描述到知识推理的转折层,是语义Web实现的核心技术。随着对本体研究的深入