论文部分内容阅读
互联网的快速发展,给人们带来了海量的信息,并且这些信息仍然在快速增长。整个互联网可以划分为表层网络和深度网络两部分,其中表层网络是指通过超链接可以被传统搜索引擎索引到的页面的集合,而深度网络指的是互联网上的网络数据库,其资源只能通过网络数据库提供的查询接口才能访问。与表层网络相比,深度网络包含的数据质量更高、更专业。然而,由于深度网络数据的异构性和动态性,必须对其进行数据集成后才能有效地加以利用,而有效地把这些信息按照领域分类则是对其进行数据集成的先决条件。查询接口是进入深度网络的唯一途径,它首先是一个表单,但并非所有的表单都是查询接口,对此,本文实现表单分类器将查询接口从表单中分离。同时,通过对查询接口的实验,发现查询接口所具有的特征可以代表深度数据资源的领域及查询能力,从而利用查询接口特征来聚类深度网络资源。查询接口与普通文本聚类一个区别在于查询接口的特征矩阵稀疏,因此利用传统的基于距离相似度的凝聚层次聚类算法聚类效果不是很理想,针对该问题,本文利用非参数假设检验的方法来求类簇间的相似,并改进相似度目标函数,将其运用到传统的凝聚层次聚类算法中,实现对查询接口的聚类,从而也就实现了对查询接口所代表的深度网络资源的聚类。运用假设检验进行聚类时,因为统计中对事件的观察值有要求,而初始类簇不经处理可能不满足假设检验的要求,针对该问题,本文使用对查询接口进行预处理的思想即首先对所有查询接口进行接口类型过滤,然后根据属性间的包含程度将数据分组,再根据属性的发生次数对组进行过滤,最后只对那些观察值满足假设检验的组进行聚类。而那些没有通过接口检查以及不满足观察值的查询接口称为孤立接口。对孤立接口,本文采取了再分类的方式处理它们,利用概率的方法将它们分类到其最可能来自的类簇中。通过这种先聚类再分类的方式,最终完成对接口的聚类。实验证明,利用该思想聚类取得较好的聚类结果。