Deep Web中基于聚类的模式匹配研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:gennie_g
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet信息的迅速增长,整个Web信息已经被各种各样可搜索的在线数据库所深化,这些信息隐藏在Web查询接口下面,传统的搜索引擎由于技术原因不能索引这些信息,称之为Deep Web信息。 Deep Web中蕴含了海量的可供访问的信息,并且还在迅速的增长。这些信息要通过查询接口在线访问其后端的Web数据库。尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分具有挑战性的工作。Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题。总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡,而且Deep Web离应用阶段还需较长的时间,大量关键的问题需要深入细致的研究。 本文介绍了Deep Web概念、规模、Deep Web产生的原因以及Deep Web信息集成系统的基本框架。对Deep Web中的关键技术——模式匹配进行了重点的研究,通过对目前基于聚类的模式匹配方法进行分析和比较,发现这些基于聚类的模式匹配方法不能实现m:n映射关系,针对这些问题提出了一种新颖的基于聚类的复杂模式匹配算法(CSM),根据成组属性和同义属性的定义,提出了成组属性和同义属性的判断方法,并在聚类过程中,根据属性间相似度的加权平均值和属性间距离加权平均值成反比的关系,给出一种计算聚类中心点的方法;聚类后,不仅能够发现1:1模式匹配,还能发现m:n复杂模式匹配;采用重采样方法的聚类验证,说明该聚类方法能够得到较优的聚类结果,证明了方法的有效性和实用性。实验结果表明,该方法能从整体上匹配出成组属性和同义属性,有效的发现m:n匹配,并具有较高的准确率和查全率。
其他文献
当前移动平台异军突起,迅速占领市场,同时计算机图形学各个方向都蓬勃发展,特别是照片级真实感场景渲染始终走在前列。二者之间的融合所展现出来的应用前景与研究价值,不仅得
随着通信技术和计算机技术,尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信
信息化绩效评估是在传统资源的财务绩效评估的基础上针对信息资源开发利用效益效果的评价。对交通信息化进行绩效评估可以衡量交通行业在未来发展中建设和应用信息系统并持续
近年来,绿色、节能、环保成为交通工具发展的主题,电动车作为顺应这一主题的产品得到了大力的推广,市场需求迅速扩大,电动车产业也有了爆炸式发展,使得电动车厂家、电动车营销公司
组件技术已经成为软件工程研究的热点和大型软件系统开发的关键。为了提高软件系统的可靠性,利用软件系统架构,即软件系统内部组件和接口间的结构信息对系统的可靠性进行分析
多智能体系统的诞生和发展是分布式人工智能技术和网络技术发展的必然结果。多智能体系统的研究近几年来已经成为基于网络的分布式人工智能的研究热点。其研究的核心问题是一
软件工程是为解决软件危机而诞生的一门学科,基于构件的软件工程CBSE提高了软件生产效率和质量,日益成为软件开发的主流范型。构件具有黑盒性质,因此,构件通过接口提供服务,
汉字识别系统能将输入到计算机中的汉字图像,经过一系列处理后提取出汉字的基本特征,并同计算机标准汉字模板库中的模板进行比较进而识别出输入的汉字。汉字识别问题属于超多
在网络使用过程中,由于用户具有各自的兴趣爱好和访问习惯,因此其关注的内容不完全相同,使用网络的时间和服务也各不相同,并且不同的用户群体不可避免地带有各自的群体行为特征。
近年来,随着对实时数据库服务的需求越来越多,实时事务调度逐渐成为一个研究的热点。先前的研究大都集中在单个或多个类型的实时事务的调度与并发控制上,但是由于实时数据库的应