企业内网搜索引擎关键技术研究与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:new4kakaxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业自身业务和信息化建设的不断发展与扩张,企业内部网络的规模也急剧膨胀。同一时间,企业内部网络上所保存的数据资源也呈爆炸性增长。为了能够根据企业内网上的重要数据制定正确的发展计划,如何在企业内网这个庞大的资源信息库中获得对企业有价值的数据资源,便成为了企业现在需要迫切解决的问题。目前,通用搜索引擎虽然能够提供大量的搜索结果以此满足大部分普通用户的需求,但这些结果不仅很难满足企业的特殊需要,而且不具有足够的导向作用。更重要的是搜索结果经常出现网页覆盖率较低、信息更新不及时等问题。而企业内网搜索引擎能根据企业的需要对关键算法进行定制,它只抓取与企业相关的数据资源并对检索出来的结果进行有效的排序,使其搜索内容针对性更强,更具有企业导向性,所以企业内网搜索引擎便成为一个解决该问题的有效方案。本文着重研究搜索引擎所使用的关键技术与算法,并根据企业需求的特殊性对其进行改进创新,完成企业内网搜索引擎所需的功能。同时,对复杂网络学科中的搜索算法进行创新,力求将其应用于大型服务器的本地文件检索系统中,增强企业内网搜索引擎的功能。本文主要提出了三个新算法,分别是基于域名的链接过滤算法、基于向量空间模型的多因素评分算法和路径压缩搜索算法:基于域名的链接过滤算法通过对链接进行分析,能够有效的阻止网络爬虫下载与企业无关的数据,提高网络爬虫的性能,同时增加搜索结果的准确率和搜索效率;基于向量空间模型的多因素评分算法是对现有的相关性评分算法进行改进,该算法综合考虑影响相关性评分的各种因素,让对企业更有价值的数据排名尽可能靠前;路径压缩搜索算法是一种新的复杂网络搜索算法,该算法只需要较少的搜索步数与查询信息量便可以遍历整个网络,所以具有较高的搜索效率,同时力求将其应用在大型服务器本地文件搜索系统中,以提高本地文件搜索的效率。最后对本文所提出的三种算法的研究与实现进行总结,并提出其中的不足和需要改进的地方。
其他文献
随着Web应用的迅速发展和软件规模的日益扩大,为了节约软硬件成本及维护的费用,软件即服务(Software as a Service,SaaS)作为一种新的软件应用模式应运而生。“单实例,多租户”是
随着多媒体技术的兴起,人们的生活得到了很大的提高。它在提供了基本的生活便利之外,更在逐步改变着传统的生活、娱乐、交际方式。然而,随着信息时代的来临,数据量的膨胀以及
当前,数字图像的修改变得更易操作,效果更为逼真,能“以假乱真”的图像也随之出现,扰乱社会秩序。鉴于此,能够辨别图像真伪的数字图像取证技术成为当前刑侦、安全、宣传、知识产权
伴随着我国下一代无线移动网络的进程,支撑各种各样电信业务的移动控制网络对底层的存储系统的支持提出了更高的要求。如今日益增加的用户数量和数据流量已经让传统的存储方
近几十年来,在图像信息方面,网络中用户每天上传的图像数量呈现出爆炸增长的趋势。如何有效的管理这些大量的图像数据,进而建立一个图像检索系统帮助人们快速找到自己感兴趣
网络最大流问题是图论有向图部分的一个非常重要的基本问题,在图论研究领域有着非常重要的理论意义。同时网络最大流在快递企业中心选址、交通分配、图像分割、社交网络Web社
通过OLAP查询可以快速发现数据背后隐藏的信息用以决策分析,但是OLAP查询在执行过程中往往需要对大量的数据进行选择、连接及投影操作,这是一个非常消耗时间及计算资源的过程。
移动互联网的迅速普及,一方面体现在各类移动智能终端的广泛流行,另一方面催生了应用市场的高度繁荣。传统的应用交付模式已不能满足高并发访问下应用的稳定运行和负载能力的
随着近年来互联网的迅速发展,信息时代的到来,作为三网融合下的产物, IPTV已经成为家电领域产业发展的一个重要方向。IPTV集宽带互联网、多媒体等多种技术于一体,向用户呈现
变电站作为电力系统中的重要组成部分,担负着电压转换、电能分配、输配电的控制和管理等重要任务,其安全、可靠地运行是电网安全和稳定的保障。采用以太网作为其通信架构的智能变电站也会面临网络全威胁,而IEC61850和IEC62351标准对智能变电站信息传输的实时性和安全性都提出了极高的要求,因此如何在新的标准和要求下保障变电站信息安全成为一项亟待解决的问题。MMS是数字化变电站常用的一种报文,广泛应用于