论文部分内容阅读
深层网(Deep Web)是指Web中不能被传统搜索引擎索引到的那部分,与普通静态网页相比,Deep Web中蕴含的信息量更大、主题更专一、信息质量更高、结构化程度也更好。随着互联网的快速发展,Deep Web数量急剧增加,成为人们获取有价值信息的重要途径。因此,Deep Web大规模信息集成的研究具有重要的现实意义。然而,如此多的Web数据源为大规模的信息集成带来了严峻的挑战。Deep Web数据源分类和用户满意度评估是Deep Web信息集成研究中的两个关键步骤。Deep Web数据源分类把整个Deep Web数据源按领域归类,进而能更快速、准确的定位Deep Web数据源,是Deep Web信息集成研究中的首要步骤。用户满意度是用户对Deep Web信息集成系统的反馈。满意度评估的研究不但能检验Deep Web信息集成的效果,同时能帮助我们找出Deep Web信息集成前期工作的不足,进而对之改进。本文分别研究和探讨了这两方面的问题,并提出相应的方法,进行了充分的实验验证。本文主要内容如下:介绍了Deep Web信息集成系统框架,详述Deep Web数据源分类和用户满意度评估技术的发展及现状,对常用的Deep Web数据源分类和用户满意度评估算法进行了研究,将各个算法进行了分类并加以总结。如果将传统的Knn分类算法应用于Deep Web数据源分类,其时间开销较大,相似度计算方法主要为余弦值计算法和欧几里得计算法。受空间向量模型的启发,本文把Deep Web数据源查询接口抽象为空间向量。由于每个数据源查询接口所包含的特征属性不同,其被映射到向量空间时就不能直接参与计算。通过对空间向量的重新设计和表示,本文提出了自己的相似度计算方式,并在此基础上形成了VD-KNN Deep Web数据源分类算法。为进一步降低Deep Web数据源分类算法时间复杂度,并结合特征属性的三个基本特性,本文建立基于属性权重的数据模型,并提出相应的相似度计算方法和分类模型(基于属性权重的Deep Web数据源分类算法,Attribute Decentralization Algorithm-based Deep Web Sources Classification(AD-DWSC))。站在用户的角度—让用户直接给出搜索引擎的评估。本文基于日志数据,通过提取和分析用户行为特征,提出了自动的基于会话解析的搜索引擎评估算法—ASP-SEPE(Automatic Session Parsing Algorithm-based Search Engine PerformanceEvaluation)算法:首先提出合理假设和约定;然后基于假设和约定,逐步建立了ASP-SEPE算法的模型。针对提出的Deep Web数据源属性分权算法和基于会话解析的搜索引擎评估算法,本文做了大量的实验,并对实验结果进行分析,进而验证所提出的思想。