Deep Web数据源的发现与聚类研究

来源 :北京化工大学 | 被引量 : 2次 | 上传用户:youjian_youjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的资源可以划分为Surface Web和Deep Web两部分。其中,Surface Web指能够被传统搜索引擎检索到的那部分资源,Deep Web指传统搜索引擎检索不到的那部分资源,通常指Web数据库包含的信息。调查表明,Deep Web蕴含的信息量是Surface Web的400至500倍。然而,由于Web数据库覆盖各个领域,并且分布在世界的各个角落,因此必须对其进行集成后才能有效地加以利用。因为Deep Web集成的是同一领域的Web数据库,所以在集成前需要发现Web数据库并将其按照所属领域分类。查询接口是Web数据库的唯一入口,因此可以通过查询接口来发现Web数据库。查询接口位于网页的表单之中,但并非所有的表单都是查询接口,因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察,本文提出了7条启发式规则用以识别查询接口。实验结果表明,查询接口识别的F-measure值能达到0.98以上。Deep Web集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前,需要从查询接口中抽取其模式信息。对于抽取过程中存在的6大难点,文中给出了相应的解决方法。实验结果表明,文中给出的方法抽取查询接口模式信息的准确度可达94%以上。同一领域的Web数据库所在网页的标题和关键词通常会共享一定的关键词。基于这个思想,本文提出了基于频繁项集的Web数据库聚类算法。该算法将共享一定关键词的网页所包含的Web数据库聚为一类,聚类结果的簇数等于频繁项集的个数,并且用频繁项集对应的关键词作为簇标签。实验结果表明,该聚类算法的F-measure值能达到0.91以上。
其他文献
无线传感器网络是集无线通信技术、传感器技术和计算机网络技术于一体的分布式网络系统,它由大量随机部署在受监控区域的传感器节点通过自组织的方式构成,是目前国内外研究的
随着基于位置的服务和社交网络的快速发展,基于位置的社交网络(Location Based Social Network, LBSN)平台得到了广泛的关注,用户可以在LBSN平台上对当前所在位置进行签到并
单摄像机运动目标跟踪的监控视域有限,不能有效解决受透视现象、目标间遮挡影响时的准确跟踪问题。后来采用多摄像机进行目标跟踪,扩大了监控视域,解决了目标间遮挡问题,可以
人种分类,就是根据人脸图像上提取到的人种相关信息,将人脸图像归类为其对象所属人种的过程。随着科技的不断发展,造成人种间进化差异的地理隔离因素正在逐渐消失,不同人种之
软件过程管理是软件开发成败的关键。软件过程管理包括支持开发工作分析、设计、执行、管理的方法、技术以及工具。目前广泛采用的软件过程管理方法是一种人工跟进地方法,这
随着知识经济的到来,人力资源管理被提到了前所未有的高度,同时,许多新兴技术在人力资源管理领域得到广泛应用。即便如此人力资源管理仍存在一些现有技术不能解决的问题,寻找新的管理技术势在必行。擅长从数据中发现模式的数据挖掘技术,在许多领域被使用,并已取得良好的经济效应,为本文所述问题的解决,开辟了新的思路。本论文以现代人力资源管理理论为指导,运用数据挖掘技术“智能地”和“自动地”对林业执法部门人力资源管
近年来,大学校园危机事件备受社会关注.危机事件的预防和处理牵动舆论风向,为高校带来较大的正面或负面影响.辅导员作为校园危机事件预防管理的一线人员,应因势而谋,应势而动
<正>征订单《商业文化》杂志系中国商业联合会主管、中国商业文化研究会主办、商业文化杂志社出版的大型期刊,中国商业文化的代言人。南方航空头等舱读物,商务部诚信工作、品
2004年6月7日,国投中鲁公司6500万普通股股票在上海证券交易所公开发行。这一天,国投中鲁公司也为三年上市之路画上了圆满句号。1991年,国家农业投资公司和山东乳山果汁饮料
知识是"人们在改造世界的实践中所获得的认识和经验的总和