Deep Web数据源聚类与查询转换的研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:xigua871030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益增长,Web已经成为人们获取信息的重要途径。Web分为Surface Web和Deep Web两大类。相对而言,Deep Web蕴含了更为丰富的资源,而且价值更高。然而Web数据库分布在各个领域,只能通过查询接口进行访问,所以必须通过数据集成后才能更好的利用。将数据库按照其所属领域进行划分是Deep Web数据集成中一个十分重要的环节。由于相同领域的数据库查询接口所在页面的标题和关键字往往会共享一些词汇,而这些词汇又在很大程度上反映了数据库的领域。因此,本文提出了一种基于频繁项集的聚类算法,对标题和关键字等文本提示信息进行聚类,从而实现对数据库的划分,可以使数据库的信息更好的被利用。在新算法中,频繁项集的个数决定了聚类的个数,并且频繁项集可以作为标签来描述聚类。实验验证,此方法的F-measure值可以达到0.92以上。另外,查询转换也是数据集成的一个重要组成部分,它主要负责将用户提交的查询在集成查询接口和Web本地查询接口之间进行转换。由于Web查询接口的异质性很高,因此对查询的转换难度很大,通常只能做近似转换。本文对查询转换问题进行了模型化及较深入的研究,提出了查询转换器的解决方案,解决了查询转换中的源的异质性和领域的可移植性等问题,有效的改善了查询的精度和性能。
其他文献
随着计算机网络技术与多媒体技术的快速发展,丰富多彩的数字信息给人们的学习和工作带来极大的方便,促进了社会的发展,但同时引起许多信息安全问题。信息隐藏技术是一种重要
虚拟植物是指在计算机上进行植物生长模拟并运用可视化技术进行展现的技术。它一般以植物个体或群体为研究对象,涉及到计算机科学、植物学、生态学及人工智能等学科并在数字
分子对接是指通过计算机模拟小分子配体和大分子受体之间的相互作用。在过去几十年里,世界上各个研究小组开发了数个分子对接软件,其中,Kuntz研究小组开发的DOCK分子对接软件
金保工程是社会保障体系的重要组成部分,随着我国经济体制改革的不断深化,金保工程建设成为建立健全和完善社会保障体系、加快劳动力市场“科学化、规范化、现代化”建设的重要
基于多Agent技术的电子商务模型是电子商务技术领域的重要研究课题。由于多Agent系统本身具有动态性、开放性、不确定性,服务请求Agent选择服务提供Agent时具有一定的风险,可基
新一代网络带宽越来越高,通信具有更小延迟和更大吞吐量,校园网和园区网的骨干网络网速已提高至Gbps甚至10Gbps级,分布于骨干网上的传统网络入侵检测系统(NIDS)与网络入侵防
随着我国经济的快速发展,城市化进程不断加快。伴随着各种交通工具方便人们的出行,交通事故频发也给人们的生命财产安全带来了巨大的损失。为了提高驾驶人的驾驶水平,解决现
随着网络传输和处理能力的大幅提高以及音频和视频压缩技术的发展,网络音频、视频应用成为基于网络的重要应用之一。组播技术通过不同于传统单播和广播的转发技术和QoS机制,
脑机接口(Brain-Computer Interface,BCI)是近年来发展的一门新兴的、多学科交叉的人机接口技术。它是一种不依赖于人正常外围神经和肌肉组织而构成的通讯系统。基于脑电图(E
女书是世界上最具性别意识的文字,有着重要的非物质文化遗产保护价值。到目前为止,女书文献主要依靠手工抄写的方式传承,而随着女书传人的相继去世,女书文献的收集和整理变得