基于概念格的Deep Web查询接口建模系统研究与设计

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:luoboge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网在世界范围内蓬勃发展,其承载的信息量更是急剧膨胀。互联网承载的数据一部分是可以从Web页面上直接获取的表层数据,另一部分是以结构化方式存储于数据库中的Deep Web数据。Deep Web数据具有非常高的应用价值,但只能通过Web页面提供的查询接口访问;而近年来出现的一些Web应用,为了获取Deep Web数据需要频繁、自动、交叉访问多个查询接口,不仅要求能够识别查询接口元素,更要求理解查询接口语义,因此有必要对查询接口的语义和结构进行建模,从而更好地理解并利用Deep Web数据。概念格理论又称形式概念分析(Formal Concept Analysis)是由德国数学家Wille于1982年提出的一种数学理论。它主要用于知识的形式化表示,同时也是一种有效的数据分析工具。查询接口建模的核心问题是语义关系发现,而概念格对知识的组织方式已被证明非常适合进行语义关系挖掘,因此概念格理论可以有效地解决查询接口的语义识别问题。为了完成查询接口建模,本文提出了一种Deep Web查询接口模型。该模型描述了查询接口的组成要素与组织结构,清晰地表达了查询接口中元素间的语义关系。对于该模型,本文重点研究了相关的建模方法,主要工作包括:第一,给出查询接口的布局矩阵及相关算法。第二,定义用于分析查询接口的维空间,并从理论上证明了基于维空间进行查询接口建模的正确性。第三,研究如何利用概念格理论挖掘查询接口中的语义规则。最后,基于以上模型,本文实现了一个Deep Web查询接口建模系统。该系统主要由HTML解析模块、布局矩阵操作模块、维空间映射模块、语义规则挖掘模块组成。系统提供了接口模型管理功能,可根据用户选择的查询接口进行建模。文中通过实验分析了系统的时间构成和建模准确率,证明了该建模系统的有效性。
其他文献
随着无线网络技术的快速发展和手持电子设备的日新月异,某些环境下传统的基于端到端的完整路径的通讯模式显然已经不再适用。一种新的网络体系应运而生。延迟容忍网络(delay to
车辆跟踪是智能交通系统(ITS,Intelligent Transportation System)中的重要技术,在图像的运动目标跟踪与识别中经常遇到车辆遮挡的问题,该问题是动态图像处理过程比较难以解决的
数据流聚类是数据挖掘领域的一个重要研究方向,其研究成果已被应用于诸多领域。然而传统数据流聚类算法不适应于不确定数据流,而且在聚类过程中不能对数据流中近期的数据进行详
近年来,随着互联网的进一步普及,电子商务一直保持着高速的增长状态,它不仅改变了人们的生活方式,还有力的推动经济的全球化进程。随着人们生活节奏加快以及对数据的实时性要求越
随着计算机技术的蓬勃发展及网络的日益普及,数据收集和存储技术快速发展带来的海量复杂数据,不仅导致了“数据危机”,还带来了“维数灾难”。随之而来的,在大数据时代为了消除噪
随着信息技术的不断发展和Web2.0的到来,人们习惯于通过雅虎、搜狐、新浪等在线新闻网站获取最新的新闻资讯并发表自己的观点和态度,任何国内外新闻事件都有可能引发网民产生巨
随着互联网技术的不断普及,使得网络在社会发展过程中逐渐成为不可或缺的关键角色,网络安全在这种趋势下受到了越来越多的关注,各类基于安全防御的手段层出不穷,在一定程度上防止
随着在线社会网络的蓬勃发展,人类交互和共享信息的方式发生了巨大变化。开放便利的互联网为人们的交流提供了更加宽广的平台,但同时也为谣言扩散孕育了理想的媒介。因此对谣言
虚拟化技术自二十世纪六十年代出现以来,发展迅速,尤其在目前云计算成为研究热点之后,虚拟化技术的研究更成为热点中的热点。虚拟化技术在出现之初,主要是为了能够将大型主机进行
移动互联网和高性能终端设备的快速发展,尤其是GPS定位应用的不断完善和普及,给人们的日常生活带来极大的便捷,基于位置的服务(Location Based Service,LBS)在生活中成为我们不可或