基于深度网络的信息检索模型研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gzalpha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet快速发展和普及的时代,人们对信息存取的理解和要求不同于以前,希望方便快速地获取大量而准确的信息。越来越多的传统资源正在向Internet上转移,网上资源数量急剧膨胀,传统的资源检索方式已经无法满足人们对信息检索的需求。网络搜索引擎(Web Search Engine)因其强大而易于使用的功能,成为了人们在组织和检索Internet信息资源时最常用的工具。然而由于深度网络(Deep Web)的存在,常规的网络搜索引擎并不能发现所有存在于Internet上的信息。因此,从深度网络的特点和常规网络搜索引擎的缺陷出发,研究深度网络信息资源的组织和检索方法,对Internet信息资源的组织与检索具有很大的意义。本文从Internet信息资源的现状入手,系统地、深入地分析了现阶段深度网络信息资源的分布特点以及其组织模式,针对常规网络搜索引擎存在的信息覆盖率问题,设计并实现了一个可以收集更多网页的网络爬虫——深度爬虫,并在此基础上提出了一个针对深度网络的信息组织与检索的模型。主要工作包括:分析当前常规搜索引擎的不足,认为由于网络爬虫的缺陷导致其信息覆盖率不高;分析当前深度网络中信息资源的特点;针对深度网络提出信息组织和检索模型,对模型的功能和目标进行定义;分析深度网页的获取方式,设计并实现基于ID3分类算法的深度爬虫;提出几种可以改进网页获取效率的改进措施;改进了中文分词算法;结合全文检索技术实现了一个原型系统。实验结果表明,该原型系统是有效的。
其他文献
随着全球经济一体化趋势的加强,加入WTO后跨国公司的迅速增长,国际物流需求将会有非常大的增长,这必将促进第三方物流的迅速发展,特别是能够提供综合物流服务的第三方综合物流企
近年来随着软件开发的日益复杂与软件成本的大幅度提高,测试工作所占的费用和时间比重也日益加剧,其中回归测试用例选择问题尤为突出。回归测试用例选择问题的核心就是如何在
互联网及各行各业信息化的快速发展,企业和单位需要处理的数据量越来越大。传统文件系统已经不能满足海量数据的存储需求,分布式文件系统成为解决海量数据存储的一种有效方式。
随着计算机及网络技术的飞速发展,数字作品传播和拷贝变得越来越方便,同时使得数字作品的信息安全保护和版权保护也成为迫切需要解决的实际问题。数字水印是近年来在信息安全
随着微处理器、无线通信技术和微机电系统的发展,产生了无线传感器网络这一新的信息获取和处理模式。多个传感器节点通过无线通信、自组织方式构成网络,协同工作实时感知、获
垃圾邮件不仅占据了邮件服务器的大量存储空间,还严重干扰了人们正常的信息交流。如何有效地控制垃圾邮件成为了一个重要的课题,越来越多的学者致力于邮件过滤技术的研究。支
混沌是非线性动力学系统所特有的一种运动形式,其应用于密码学中在近十几年来引起了学者们的极大关注,并已在密码学领域获得了广泛的应用,取得了一些较好的结果。 本论文首先
当前,人工智能技术日益展现出促进人类科技发展的巨大能量。推荐系统作为人工智能和机器学习领域中的一个重要分支,能够有效地帮助用户从海量数据中挖掘其潜在感兴趣的信息,
传统的QoS在较多的网络设备上配置时十分繁琐,容易出错。于是出现QoS策略,QoS策略包含三个要素:流分类、流行为、策略。类是用来识别报文类型;流行为用来定义针对某类报文所
基于免疫学的入侵检测是近几年来入侵检测领域研究的热点,它的突出特点是利用生物免疫系统的原理、规则与机制来实现入侵行为的检测和反应。因为网络入侵检测的机制和生物学