【摘 要】
:
深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无
论文部分内容阅读
深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是,传统的搜索引擎受技术等各种限制,无法获取在线数据库中的信息,导致大量高价值和权威信息变成“不可见”的深网信息。由于查询接口是进入深网后台数据库的唯一入口,用户只能通过向查询接口提交查询来获取深网信息,所以对查询接口的正确判断和识别将是获取深网信息的关键所在。
围绕着深网查询接口的识别和判断,本文做了以下主要研究工作:
首先,对深网相关知识和国内外研究状况进行学习和分析,具体包括深网的概念、价值,以及深网信息的搜索方法等,并提出了本文的研究问题和方向;
其次,搜集不同领域的各种表单,对其特征进行DOM解析和提取,并将提取出来的特征保存到数据库中;
再次,对原始数据集做预处理操作,包括去除冗余和噪声,属性选择,格式变换,离散化处理等;
最后,运用几种典型的分类算法对数据集进行分类和预测,包括决策树C4.5分类算法、支持向量机SVM、k—近邻算法和朴素贝叶斯分类器,在分类和预测过程中,选择了随机取样中的保持法和十折交叉验证法,通过实验结果的分析和比较,选出精确度最高的算法作为判断和识别深网查询接口的算法。
在本文结论中,提出了针对深网查询接口所要做的进一步研究工作。
对深网的研究虽然还只处于初期阶段,但是,随着人们对深网探索的不断深入,深网研究必将取得更大的突破和收获。
其他文献
随着Web服务技术鉴于其封装性、松耦合等特点获得了的广泛应用,众多的服务提供商将他们的服务以Web服务的形式封装并发布。相应的,消费者对于服务的功能、反应速度、服务质量
随着我国经济体制和行政体制改革的深化,社会正处于转型期,在这种形势下,要求政府及时主动公开政府信息,加强与公众之间的沟通,为公众提供高效便捷的服务,履行公共服务的职能
随着通讯与计算技术的不断发展,无线传感器网络正在发挥越来越重要的作用。无线传感器网络通过传感器节点收集并传输观测数据,最终将观测数据交付观察者。它跟传统无线网络最
数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决“数据丰富、信息贫乏”的有
一个网站由许多个网页组成,网站上的信息分布在这些网页上,而不同用户对不同网页上的信息感兴趣,现在随着网络技术的高速发展,网络上的信息呈指数增长,所以人们要想在众多的信息资
随着Web技术的发展,互联网上出现了一系列基于内容的图像检索应用,即“以图找图”。石材图像检索系统是为石材行业开发的一个基于Internet环境的实用信息系统,该系统可通过石
随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效地获取有用的信息,已经成为研究的热点。目前文本聚类的方法主要有
社交网络作为互联网最热门的应用之一,随着流行和普及,人类的沟通交流已不再局限在相同的时间和空间内。快速发展的社交网络不仅是用户展示自我价值、表达利益诉求和维护人际关
运动对象分割是图像分割的一个重要分支。图像分割就是把图像分割成具有相同信息的子区域,运动对象分割是在图像分割基础上把视频图像或图像序列按照一定的标准分割成不同的
在各种临床诊断,治疗中使用的医学影像,都具有高分辨率、大存储量的特点,随着数字化影像技术的发展,进一步减少医学图像所占的存储空间,提高其在网络上的传输速度,就显得十分