基于查询接口特征的深度网络资源聚类分析

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:surezheng12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展,给人们带来了海量的信息,并且这些信息仍然在快速增长。整个互联网可以划分为表层网络和深度网络两部分,其中表层网络是指通过超链接可以被传统搜索引擎索引到的页面的集合,而深度网络指的是互联网上的网络数据库,其资源只能通过网络数据库提供的查询接口才能访问。与表层网络相比,深度网络包含的数据质量更高、更专业。然而,由于深度网络数据的异构性和动态性,必须对其进行数据集成后才能有效地加以利用,而有效地把这些信息按照领域分类则是对其进行数据集成的先决条件。查询接口是进入深度网络的唯一途径,它首先是一个表单,但并非所有的表单都是查询接口,对此,本文实现表单分类器将查询接口从表单中分离。同时,通过对查询接口的实验,发现查询接口所具有的特征可以代表深度数据资源的领域及查询能力,从而利用查询接口特征来聚类深度网络资源。查询接口与普通文本聚类一个区别在于查询接口的特征矩阵稀疏,因此利用传统的基于距离相似度的凝聚层次聚类算法聚类效果不是很理想,针对该问题,本文利用非参数假设检验的方法来求类簇间的相似,并改进相似度目标函数,将其运用到传统的凝聚层次聚类算法中,实现对查询接口的聚类,从而也就实现了对查询接口所代表的深度网络资源的聚类。运用假设检验进行聚类时,因为统计中对事件的观察值有要求,而初始类簇不经处理可能不满足假设检验的要求,针对该问题,本文使用对查询接口进行预处理的思想即首先对所有查询接口进行接口类型过滤,然后根据属性间的包含程度将数据分组,再根据属性的发生次数对组进行过滤,最后只对那些观察值满足假设检验的组进行聚类。而那些没有通过接口检查以及不满足观察值的查询接口称为孤立接口。对孤立接口,本文采取了再分类的方式处理它们,利用概率的方法将它们分类到其最可能来自的类簇中。通过这种先聚类再分类的方式,最终完成对接口的聚类。实验证明,利用该思想聚类取得较好的聚类结果。
其他文献
近年来,随着多媒体技术和计算机网络的飞速发展,图像检索技术已逐渐成为一个非常活跃的研究领域。图像检索技术可以分为两类,一种是基于文本的图像检索技术(text-based image re
人脸特征检测在人脸识别,智能人机交互等诸多领域都扮演着重要的角色。为使上肢残疾的人士和计算机之间的交互变得无障碍,本论文提出了一种用摄像头代替传统手动操作鼠标作为
数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动中扮演着越来越重要的角色。随着当前IT技术、电子商务及互联网的快速发展和迅速普及,导致在各个应用领
数据挖掘,简单地说,就是从庞大的观察数据集中提炼并分析出不能轻易察觉或断言的关系,最后给出一个有用的并且可以理解的结论。粗糙集理论是一种处理模糊和不精确问题的数学工具
互联网作为20世纪发展最为迅速的技术之一,已经成为现代信息社会最重要的基础设施,成为国家进步和社会发展的重要支柱。随着光通信技术和宽带无线通信技术的快速发展以及新一
随着企业信息化程度的不断提高,企业之间应用程序的集成需求越来越多。由于企业系统开发的随意性,所使用的数据结构和对数据的表达方式多种多样,信息的采集与交换的难度可能不亚
图像分割是数字图像处理中的一项关键技术,它使得其后的图像分析,识别等处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。由于分割中出现的误差会传播至高
随着网络与信息技术的迅猛发展,网络信息呈现指数级增长,如何从海量数据中快速有效地获得所需信息,已成为一个亟需待解决的问题,而文本分类技术恰好是解决该问题的有效手段之
90年代以来,需求工程已成为研究热点之一。用例技术的出现,为面向对象的软件开发过程中,用户真正地参与到系统中来带来了福音。在OOSP领域,RUP以其用例驱动、以体系结构为中心、
随着计算机技术和网络技术的迅猛发展,教育信息化建设中的教学信息化已逐步成为现代教育技术的重要研究课题。因此,开发出基于网络的远程在线考试的系统,既可以增强学校考试