Deep Web数据源发现和分类研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:clare228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使Web信息量不断膨胀,网络正在迅速深化。由于大量的信息都隐藏在查询接口之后,无法利用传统的搜索引擎技术获取,这类信息被称为DeepWeb。高速增长的DeepWeb信息已成为人们进行信息获取的重要来源,但由于DeepWeb信息的异构性和动态性,使用起来非常不方便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deep Web数据源发现和分类所涉及到的相关技术进行了深入研究,并提出了相关模型和机制,有效的解决了传统方法的局限性。主要研究工作包括:1.讨论了一种利用搜索引擎来发现数据源的方法。为了能够向搜索引擎提交高质量的关键词,将本体作为等级化组织词汇的架构引入到初始词构建过程中。对所有词汇按照在当前领域中出现频率高低进行分类,并根据搜索引擎返回接口集元素数量进行二次分类,确保关键词是对发现数据源查询接口贡献较大的词汇。2.提出了一种利用模糊集和概率模型分类数据源的方法。对各领域中的词汇按照其对当前领域的贡献程度分为特征词和常用词。为了能够在网页文本中找出更加精确的词汇,将模糊集作为归一化词汇的工具引入到特征词集和常用词集精简的过程中,并且将归一化后的词汇在各领域上建立概率模型,通过计算数据源表单向量与各领域向量之间距离来分类。3.研究了一种网络表单分类器改进机制,该机制主要将pre-query和post-query技术结合来使各种分类错误的表单进行二次分类,使这些表单能重新分类到正确的领域中。在分类前利用各领域间的相互关系建立图模型,使表单同时分类到当前领域相关的多个领域集合中,再将各领域表单集合的交集进一步通过探测查询进行分类,使得表单分类更加精确化。本文进行了大量的实验,验证提出的各种理论和方法,同时提出了有待进一步深入的问题,实验结果表明本文提出的方法技术是可行有效的。
其他文献
指纹识别算法是目前高效、应用广泛的识别算法之一,是生物特征识别领域的研究热点之一。在公安、金融电子商务、政务、司法等领域有着广泛的应用。指纹识别具稳定性,唯一性,安全
随着计算机和通信技术的迅猛发展,网络也正朝着大规模、高度分布式的方向发展,同时计算机系统及其网络的被入侵行为也朝着规模化、分布化、复杂化等方向演化。由于各种网络安
车牌识别系统、(License Plate Recognition System,LPRS)是智能交通系统(Intelligent Transport System,ITS)一个重要组成部分。随着我国经济的飞速发展,汽车的总量也大幅度
k-近邻(KNN)算法是一种简单而有效的分类算法。传统的KNN分类算法存在着参数k难以确定以及分类新数据时间耗费大的两个缺陷。kNN模型算法(简记KNNModel)是一种基于KNN原理的
某眼镜连锁销售店在日常销售中应用连锁零售销售系统,积累了大量的销售数据,但该系统只支持极其简单的统计查询,无法进行商品关联性、销量和利润预测等分析。因此,本文对该企业原
数据发布中的隐私保护是将数据发布与隐私保护技术相结合,在保护隐私的前提下,发布较为准确的数据,提高信息的利用水平。匿名化限制发布是其主要的技术实现手段。当前以数据
随着Web应用的普及,Web应用程序漏洞以越来越快的速度爆发出来,针对Web应用程序漏洞检测技术的研究正逐渐成为国内外研究的重点和热点。本文介绍了已有的Web应用程序漏洞及其带
H.264是ITU-T的视频编码专家组与ISO/IEC的动态图像专家组联合开发的最新视频编码国际标准。与以前的H.263、MPEG-X等编码标准不同,H.264增加了多模式运动估计、帧内预测、变
根据蛋白质的氨基酸序列预测蛋白质的结构是计算生物学中尚未解决的重要问题之一,而该问题的一个难点是蛋白质中Loop片段的结构。Loop在蛋白质的特征和功能中起着关键作用,但是
基于P2P的实时流媒体技术能够充分利用网络节点资源,减轻服务器压力,扩展系统规模,反映实时特性,因此成为近年来流媒体技术研究的一个热点。时移作为流媒体的关键技术已经在