论文部分内容阅读
基于Web的应用需要获取Web页面的数据.随着互联网的发展,Web网页越来越多的由Web服务器端程序动态产生.发现并且抽取这样的深网页面是一件困难的任务.而在线Web数据库是构成深网的重要组成部分,其结构化的数据更利于Web页面数据的抽取.Web数据库的抽取作为深网研究中重要的课题,已经有学者对其进行深入的研究,但是目前仍然缺乏对查询返回结果受限的Web数据库抽取的研究.文中借助于形式概念分析的形式化描述能力对受限的Web数据库抽取问题进行深入详细的阐述和分析.主要工作与创新点包含以下几方面:(1).在首先证明由属性及属性组合产生的集合划分之间为容差关系,进而证明其构成一个完全格,并且与概念格同态的基础上,将形式概念分析理论引入到Web数据库抽取应用领域中,实现深网上Web数据库抽取问题到基于形式概念分析的Web应用问题的转化.使得形式概念间的偏序关系被用来刻画属性间的相关性,形式概念内涵作为查询属性,形式概念外延则为对查询返回结果的预测.(2).在应用概念格到受限Web数据库抽取过程中,相继提出了一系列的受限Web数据库抽取算法,逐步提高基于概念格应用的效率.它们分别是从概念集合覆盖角度提出的基于格空间的受限Web数据库抽取算法(Ladeldew)、基于半格空间叠置集成构造的受限Web数据库抽取算法(Ladeldew-N)和从信息检索(Information Retrieval, IR)的角度提出的基于最大子概念的受限Web数据库抽取算法(Edali-wdbFCA).(3).面对基于形式概念分析应用过程中,构造概念格过高的时间和空间复杂度问题,本文采用仅构造应用中需要的部分概念格的策略.为此首先提出了下半概念格叠置集成构造理论及相应算法(Nocose),其避免了完备概念格的构造;随后又提出查询概念的下覆盖生成方法,动态计算当前查询概念的下覆盖作为查询的搜索空间,进一步避免了半格的构造,提高了应用效率.这些方法减少了形式概念应用过程中计算的复杂度,为基于形式概念分析的应用奠定了坚实的理论基础.(4).为了进一步处理具有大规模、动态、异构、重复性以及冲突等多种特点的Web数据,并且保持分析问题的理论方法一致性.本文借助于形式概念分析的概念形式化表示与概念分析能力,在研究概念间冲突、互补、抽象等关系后,提出一个基于形式概念分析的概念融合理论框架.并且在该融合框架的基础上提出一个特定领域Web页面关联概念挖掘算法(Acorn).(5).文中的主要工作通过实验不仅验证算法理论的正确性,以及实践应用中的可行性;而且又针对每个算法的自身特点进行相应的性能测试与分析.基于形式概念分析的Web数据库抽取和概念融合研究工作不仅具有一定的理论意义,丰富了web信息抽取和概念融合的理论研究;而且具有广泛的实际应用价值,扩展概念格的应用范畴,并且为web信息抽取和融合提供新的途径.但是仍然有大量的理论问题和具体的应用问题期待解决,这是一件需要长期努力的艰辛工作.