论文部分内容阅读
随着Internet的飞速发展,World Wide Web已经发展成为全球传播与共享科研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标记语言发布的Web信息面向显示,缺乏模式信息和语义信息,为了更有效的管理和组织Web信息,实现对Web信息高效的查询与检索,XML及其相关规范随之诞生了,并成为了人们公认的信息交换标准。XML将Web信息的语义与显示分离开来,通过定义带有语义信息的标记,提供了应用程序处理Web信息时所需的语义信息。但是,Web上大量存在的有价值的信息仍然是HTML格式的,为了以结构化和一致的方式访问Web信息,人们采用了信息抽取技术,并成为当前研究热点之一。 本文在分析影响信息抽取准确率和召回率的各种因素的基础上,改进了基于HTML结构的Web信息抽取方法。在仔细研究这方面的典型系统和方法,深入分析抽取依据,网页结构与语义模式匹配性的基础上,该方法引入了相互联系的三层规则:初始规则、最优规则和基于XQuery的复杂对象抽取规则。首先,系统在用户的帮助下生成初始规则,它由规则段组成;然后,系统自动对初始规则进行归纳,获得语义模式中各语义对象由标准XPath表达的最优规则,为提高性能,在规则优化的过程中引入了反例,并充分考虑了语义模式结构和Web文档结构不匹配对规则形成和构成产生的影响;接着,系统将各语义对象的最优规则组装成一条完整的XQuery查询语句,作为复杂对象的抽取规则,最后系统利用XQuery引擎执行XQuery查询语句实现对相似页面的信息抽取。该方法提高了现有信息抽取技术的效率和健壮性,有效地解决了语义模式结构与Web文档结构不匹配引发的问题;采用与IDL兼容的受限XML作为语义模型,增强了输出格式的灵活性;利用XQuery表达抽取规则,使其具有通用性,引擎易于与基于Web技术的应用相结合;另外,利用该方法,抽取可以处理选择和投影操作。实验证明,该方法具有比较高的准确率和召回率。