基于形式概念分析的Web数据库抽取研究

来源 :武汉大学 | 被引量 : 8次 | 上传用户：misswj2009

【摘要】

：

基于Web的应用需要获取Web页面的数据.随着互联网的发展,Web网页越来越多的由Web服务器端程序动态产生.发现并且抽取这样的深网页面是一件困难的任务.而在线Web数据库是构成

【作者】

：

张卓

【出处】

：

武汉大学

【发表日期】

：

2011年01期

【关键词】

：

Web数据库形式概念分析概念格数据抽取概念融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于Web的应用需要获取Web页面的数据.随着互联网的发展,Web网页越来越多的由Web服务器端程序动态产生.发现并且抽取这样的深网页面是一件困难的任务.而在线Web数据库是构成深网的重要组成部分,其结构化的数据更利于Web页面数据的抽取.Web数据库的抽取作为深网研究中重要的课题,已经有学者对其进行深入的研究,但是目前仍然缺乏对查询返回结果受限的Web数据库抽取的研究.文中借助于形式概念分析的形式化描述能力对受限的Web数据库抽取问题进行深入详细的阐述和分析.主要工作与创新点包含以下几方面：(1).在首先证明由属性及属性组合产生的集合划分之间为容差关系,进而证明其构成一个完全格,并且与概念格同态的基础上,将形式概念分析理论引入到Web数据库抽取应用领域中,实现深网上Web数据库抽取问题到基于形式概念分析的Web应用问题的转化.使得形式概念间的偏序关系被用来刻画属性间的相关性,形式概念内涵作为查询属性,形式概念外延则为对查询返回结果的预测.(2).在应用概念格到受限Web数据库抽取过程中,相继提出了一系列的受限Web数据库抽取算法,逐步提高基于概念格应用的效率.它们分别是从概念集合覆盖角度提出的基于格空间的受限Web数据库抽取算法(Ladeldew)、基于半格空间叠置集成构造的受限Web数据库抽取算法(Ladeldew-N)和从信息检索(Information Retrieval, IR)的角度提出的基于最大子概念的受限Web数据库抽取算法(Edali-wdbFCA).(3).面对基于形式概念分析应用过程中,构造概念格过高的时间和空间复杂度问题,本文采用仅构造应用中需要的部分概念格的策略.为此首先提出了下半概念格叠置集成构造理论及相应算法(Nocose),其避免了完备概念格的构造；随后又提出查询概念的下覆盖生成方法,动态计算当前查询概念的下覆盖作为查询的搜索空间,进一步避免了半格的构造,提高了应用效率.这些方法减少了形式概念应用过程中计算的复杂度,为基于形式概念分析的应用奠定了坚实的理论基础.(4).为了进一步处理具有大规模、动态、异构、重复性以及冲突等多种特点的Web数据,并且保持分析问题的理论方法一致性.本文借助于形式概念分析的概念形式化表示与概念分析能力,在研究概念间冲突、互补、抽象等关系后,提出一个基于形式概念分析的概念融合理论框架.并且在该融合框架的基础上提出一个特定领域Web页面关联概念挖掘算法(Acorn).(5).文中的主要工作通过实验不仅验证算法理论的正确性,以及实践应用中的可行性；而且又针对每个算法的自身特点进行相应的性能测试与分析.基于形式概念分析的Web数据库抽取和概念融合研究工作不仅具有一定的理论意义,丰富了web信息抽取和概念融合的理论研究；而且具有广泛的实际应用价值,扩展概念格的应用范畴,并且为web信息抽取和融合提供新的途径.但是仍然有大量的理论问题和具体的应用问题期待解决,这是一件需要长期努力的艰辛工作.

其他文献

博弈论在信息隐藏中的生存能力研究

信息隐藏的研究主要集中在隐写术和数字水印两个分支。隐写术和数字水印是两个不同的研究方向，但它们的相同点都是将秘密信息隐藏到多媒体中，都希望对多媒体不造成明显影响，从这

学位

信息隐藏数字水印隐写术博弈论水印生存能力隐写分析攻击无意攻击水印鲁棒性

加强过程控制，避免合同管理流程中的风险

合同管理是采油院经营管理部重要工作内容之一，其主要目标是优化合同管理流程、降低合同管理风险、提高合同管理效率。规范采油院经营行为，强化合同管理，避免或减少因合同管理不

期刊

合同管理风险分析

新工科模式下基于能力培养的自动化综合实践探索

本文面向新工科建设背景,针对自动化专业实践教学模式的弊端,提出了建设自动化实践教学平台以适应当前工科教学的新模式。以新工科人才能力培养为宗旨,创新性提出自动化综合

期刊

自动化综合实践平台新工科人才培养

取势奥运

奥运营销是一场精心策划、步步为营的长征。一每一届奥运会都有自己的印记。很不幸,里约奥运会的开篇,却一直与政局混乱、治安恶劣、财务困境等负面形象相连。正式开幕的前一

期刊

中国男篮中国警察财务困境负面形象门户网取势互联网媒体社交媒体商业人士事件营销

基于CMOS带隙基准源设计

电压基准源是模拟集成电路设计中的一个非常重要的基础模块。文章完成了带隙基准电压源的设计,进行了包括电路各部分结构的讨论与选择、电路的设计与仿真以及电路版图的设计

期刊

CMOS带隙基准电路仿真CMOS bandgap reference circuit simulation

城市商业区的客流量聚集等级及时间分布形态判别方法

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

商业区人群聚集风险客流量聚集等级时间分布形态

多媒体环境下体操教学应注意的问题

多媒体教学能形成一个图文并茂、声像结合、数形结合的形象、直观、生动的教学环境，在体操教学中，这不仅大大增加了教学信息量，而且能显示动作完成的过程，使学生了解动作的运动学

期刊

多媒体体操教学问题

浅析我国档案管理体制改革的重难点与建议

档案管理体制是关乎我国档案管理全局的关键节点，是关乎整个档案管理发展全局的重点。为了促进我国档案管理的全局化发展，我们不断谋求更高的、更为行之有效的档案管理体制，为此

期刊

档案管理体制改革

再生骨料透水路面结构工程应用

在'海绵城市'的新一代城市雨洪管理概念下,新型的城市道路建设不仅需要满足道路交通的需求,更应当具有'水弹性城市'的功能,解决我国城市内涝问题,减轻城市的

期刊

再生骨料透水路面

铰链挂板弯曲模设计

为了解决弯曲部分长度较大的U形零件弯曲成型后易箍紧在凸模上不易取件的问题,详细介绍了铰链挂板U形制件的弯曲工艺性和模具设计方案,将弯曲凸模设计成固定凸模和可动凸模的

期刊

铰链挂板U形制件弯曲工艺弯曲模具hinge flap U- shaped part bending process bending die

基于形式概念分析的Web数据库抽取研究

与本文相关的学术论文