论文部分内容阅读
随着互联网的普及和信息技术的快速发展,互联网已成为人们获取信息的重要途径。Deep Web数据源中蕴含的高质量、结构化的数据也越来越受到人们的关注。Deep Web是指互联网上由后台数据库动态产生的页面,这些页面不能通过静态链接直接访问,只能通过表单提交查询的方式来获取。作为Deep Web数据源集成中的关键一步,Deep Web数据源聚类就是将数据源按照领域进行划分。由于缺乏数据源的先验知识,目前Deep Web数据源聚类任务面临难以预先确定聚类个数的问题。在特征提取方面,Deep Web数据源存在特征向量高维稀疏的特点。针对以上问题,本文将Dirichlet过程引入Deep Web数据源聚类研究中,提出了一种基于Dirichlet过程的Deep Web数据源聚类方法。文本的主要研究工作和成果如下:①提出了基于层次Dirichlet过程的特征提取方案。将查询接口中原本高维稀疏的短文本,表示为主题特征,该过程在降维的同时能自动确定特征数,不需要人工事先设定主题特征的数目,解决了因为先验知识缺乏而带来的参数设定的难题。②针对Deep Web数据源聚类算法因缺乏先验知识而难以预先确定聚类数目的问题,提出基于Dirichlet过程混合模型的聚类算法。该算法无需人工事先指定聚类个数,由Dirichlet过程根据数据自动计算得到,特别适用于Deep Web数据源数量大,变化快的特点。③在Dirichlet过程混合模型的参数推导过程中,提出了一种加权Gibbs抽样算法,在原始Gibbs抽样算法的基础上,为主题特征引入权重信息,解决了原始抽样算法带来的聚类不均衡问题。最后,在Deep Web数据源聚类的通用数据集上进行了实验。在F-measure值和熵值两个指标上对本文提出的方法进行了评估。实验结果表明,相比于经典的聚类算法和特征提取方案,本文方法对参数依赖较少,同时具有较好的聚类效果。