Web信息抽取规则的优化及规则的XQuery表达

来源 :河北大学 | 被引量 : 0次 | 上传用户:xjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,World Wide Web已经发展成为全球传播与共享科研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标记语言发布的Web信息面向显示,缺乏模式信息和语义信息,为了更有效的管理和组织Web信息,实现对Web信息高效的查询与检索,XML及其相关规范随之诞生了,并成为了人们公认的信息交换标准。XML将Web信息的语义与显示分离开来,通过定义带有语义信息的标记,提供了应用程序处理Web信息时所需的语义信息。但是,Web上大量存在的有价值的信息仍然是HTML格式的,为了以结构化和一致的方式访问Web信息,人们采用了信息抽取技术,并成为当前研究热点之一。 本文在分析影响信息抽取准确率和召回率的各种因素的基础上,改进了基于HTML结构的Web信息抽取方法。在仔细研究这方面的典型系统和方法,深入分析抽取依据,网页结构与语义模式匹配性的基础上,该方法引入了相互联系的三层规则:初始规则、最优规则和基于XQuery的复杂对象抽取规则。首先,系统在用户的帮助下生成初始规则,它由规则段组成;然后,系统自动对初始规则进行归纳,获得语义模式中各语义对象由标准XPath表达的最优规则,为提高性能,在规则优化的过程中引入了反例,并充分考虑了语义模式结构和Web文档结构不匹配对规则形成和构成产生的影响;接着,系统将各语义对象的最优规则组装成一条完整的XQuery查询语句,作为复杂对象的抽取规则,最后系统利用XQuery引擎执行XQuery查询语句实现对相似页面的信息抽取。该方法提高了现有信息抽取技术的效率和健壮性,有效地解决了语义模式结构与Web文档结构不匹配引发的问题;采用与IDL兼容的受限XML作为语义模型,增强了输出格式的灵活性;利用XQuery表达抽取规则,使其具有通用性,引擎易于与基于Web技术的应用相结合;另外,利用该方法,抽取可以处理选择和投影操作。实验证明,该方法具有比较高的准确率和召回率。
其他文献
对于现今的互联网用户来说,要从这个巨大的信息库中找到自己感兴趣的资料委实不易,他们往往需要付出很大的代价去仔细搜寻。而目前大多数的信息检索工具都把重点放在了信息资源
该文讨论的是基于软件产品线技术的数控软件产品集成.数控机床种类千变万化,同一种类机床的不同规格系列也不尽相同,这导致了控制每种机床的软件产品也是多种多样的.然而数控
本文对分布式控制系统的发展现状和基于现场总线的发电厂升压站自动化系统的应用前景进行了分析,提出了现场总线和以太网相结合的升压站自动化系统的设计方案,并对相关技术进
随着关系数据库系统功能不断的扩大与完善,为数据库厂商在数据库系统的管理方面不断提出新的课题.数据库管理系统是为数据库的建立、使用和维护而配置的软件.它建立在操作系
当今信息爆炸的社会环境中,人们对信息处理分析的要求和关注正在与日俱增。因此,各种高效的数据信息处理工具成为当前信息技术领域的研究热点。 现有工具中,OLAF实现对多维数
随着因特网技术的逐渐普及,传统的教学模式也发生了重大变革,目前已有一些基于因特网技术的教学模式在实际教学中得到应用,网络化教学已成为教育的发展趋势.本文分析了网络教
GIS,近年来已经从不为大众所知的专用系统,渐渐的走向广大的用户群。继前几年WebGIS的迅速发展后,MobileGIS成为了其应用发展的又一热点。而随着无线通信领域近年来的飞速发展,目
随着计算机软硬件的发展,计算机广泛应用于工程设计、机械制造等领域,人们对计算机在工程设计、绘图、分析与文档制作等方面的应用提出了更高的要求,计算机辅助设计技术CAD随之
本文分析了ASM组播模型过于开放的特性所导致的一系列安全问题,从中选取最急需解决的群组发送者和群组接收者访问控制问题作为研究内容,设计和实现了一个组播服务管理和控制系
VOD系统是大量多媒体应用系统中的一种关键技术。大规模VOD系统中的资源有效利用问题非常突出,海量数据传输使得网络I/O带宽和服务器磁盘I/O带宽成为系统的瓶颈。视频点播流调度