Deep Web数据源分类及用户满意度评估研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:youshulin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深层网(Deep Web)是指Web中不能被传统搜索引擎索引到的那部分,与普通静态网页相比,Deep Web中蕴含的信息量更大、主题更专一、信息质量更高、结构化程度也更好。随着互联网的快速发展,Deep Web数量急剧增加,成为人们获取有价值信息的重要途径。因此,Deep Web大规模信息集成的研究具有重要的现实意义。然而,如此多的Web数据源为大规模的信息集成带来了严峻的挑战。Deep Web数据源分类和用户满意度评估是Deep Web信息集成研究中的两个关键步骤。Deep Web数据源分类把整个Deep Web数据源按领域归类,进而能更快速、准确的定位Deep Web数据源,是Deep Web信息集成研究中的首要步骤。用户满意度是用户对Deep Web信息集成系统的反馈。满意度评估的研究不但能检验Deep Web信息集成的效果,同时能帮助我们找出Deep Web信息集成前期工作的不足,进而对之改进。本文分别研究和探讨了这两方面的问题,并提出相应的方法,进行了充分的实验验证。本文主要内容如下:介绍了Deep Web信息集成系统框架,详述Deep Web数据源分类和用户满意度评估技术的发展及现状,对常用的Deep Web数据源分类和用户满意度评估算法进行了研究,将各个算法进行了分类并加以总结。如果将传统的Knn分类算法应用于Deep Web数据源分类,其时间开销较大,相似度计算方法主要为余弦值计算法和欧几里得计算法。受空间向量模型的启发,本文把Deep Web数据源查询接口抽象为空间向量。由于每个数据源查询接口所包含的特征属性不同,其被映射到向量空间时就不能直接参与计算。通过对空间向量的重新设计和表示,本文提出了自己的相似度计算方式,并在此基础上形成了VD-KNN Deep Web数据源分类算法。为进一步降低Deep Web数据源分类算法时间复杂度,并结合特征属性的三个基本特性,本文建立基于属性权重的数据模型,并提出相应的相似度计算方法和分类模型(基于属性权重的Deep Web数据源分类算法,Attribute Decentralization Algorithm-based Deep Web Sources Classification(AD-DWSC))。站在用户的角度—让用户直接给出搜索引擎的评估。本文基于日志数据,通过提取和分析用户行为特征,提出了自动的基于会话解析的搜索引擎评估算法—ASP-SEPE(Automatic Session Parsing Algorithm-based Search Engine PerformanceEvaluation)算法:首先提出合理假设和约定;然后基于假设和约定,逐步建立了ASP-SEPE算法的模型。针对提出的Deep Web数据源属性分权算法和基于会话解析的搜索引擎评估算法,本文做了大量的实验,并对实验结果进行分析,进而验证所提出的思想。
其他文献
随着网络的普及,用户可以方便快捷的访问到大量的共享数据。这些共享数据中包含个人隐私信息,为了防止隐私泄漏,数据发布者往往在数据发布之前进行匿名和k-匿名处理。k-匿名
随着基于位置服务的普及,以及各种基于位置服务的移动社交应用的广泛使用,越来越多的移动用户开始担心自己的位置隐私被暴露。各种位置隐私度量方法也相继被提出来,但是这些
针对电力行业内传统网络安全预测无法全面反映系统整体状况,预测精度不高的缺点,提出了一种网络安全预测方法。首先,对企业内的网络安全事件进行分析,运用层次分析法(AHP)构
概念图是以图解的方式,直观地、结构化地描述两个或多个概念之间关系的一种图。研究表明概念图能有利于促进学习者的有意义学习与知识构建,在教学上除了可作为教学设计工具之
赤潮是世界近海三大污染问题之一,给人类社会造成了巨大的危害,引起全世界范围的广泛关注和研究。近年来我国近海区域赤潮爆发的数量和灾害程度逐年加大,每年都造成高达数十
学位
随着人们加快对海洋资源地开发与利用,声纳设备因具有传输距离远、衰减慢等特点被广泛应用于海洋通信、探测等领域。在水声技术里,水声换能器匹配网络研究与谐振频率自动跟踪技
远程侦查指挥平台对在网的有线和无线远端全程同步、录音、录像及现场勘查取证等实时监控,电子证据能否启用取决于数据的连续性和完整性以及清晰程度,这就对数据传输的延迟和
无线传感器网络(Wireless Sensor Networks: WSN)是一种由大量传感器节点构成且以数据为中心的无线自组网,能够实时地监控、收集和处理信息,具有广阔的应用前景。然而,无线传感器
随着互联网技术和数字信号处理等多媒体技术的飞速发展,使得非法占有、编辑和传播未授权产品的侵权行为变得越来越容易。数字水印技术作为一项新技术,在保护数字产品的版权所有