基于学习的WEB进化搜索算法研究

来源 :河北工业大学 | 被引量 : 3次 | 上传用户:qipiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 目前的目录式搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。这里存在着巨大的人力和时间耗费。而且,通过关键词匹配的方式在WWW上检索信息,检索的结果是一个线性文档的列表,当返回结果多达几十页的时候,往往会耗费用户大量的精力,令用户腻烦。 本文通过对聚类分析技术、蚂蚁算法的分析,提出了利用知识进化类算法——蚂蚁算法实现搜索引擎中进化搜索的有效方法。首先阐述了搜索引擎的工作原理,性能指标,主要技术;分析了现有目录式搜索引擎的缺点,接着介绍了聚类分析算法与蚂蚁算法的理论,并论述了二者结合的可能性和必要性,这种结合方法也在一定程度上克服了聚类分析算法容易陷入局部最优的缺点,最终提出了通过使用蚂蚁算法建立二叉树、m叉树和树作为信息数据处理的思想,大大提高了搜索引擎搜索的效率。并在对实验数据分析的基础上,分别对已建立的二叉树、m叉树和树的方法加以改进,即在建立上述模型的过程中充分考虑到数据分布的密度信息,使得聚类效果有了进一步的提高。 在建立二叉树、m叉树和树的方法时,本文还分别进行了相关的比较,得到了一系列有意义的结论。
其他文献
随着计算机技术的飞速发展,当今计算机技术已进入以网络为中心的计算时期,大量的应用都围绕着网络进行,对服务器的性能和可靠性提出了越来越高的要求,为了满足这些可用性要求极高
重构技术是近年来随着人们对设计模式的重视而逐渐受到关注的。而地区电网特别是省级电网的自动电压控制也是近年来研究的热点。随着计算机通讯技术的发展,两大热点从理论走向
在VPN领域里,MPLS VPN是一种新兴的VPN实现技术。MPLS VPN简单高效,结合了IP网络和ATM各自的优点,因此有越来越多的商业用户采用它来组建自己的VPN网络,也有越来越多的服务提供商
对于航天型号软件测试来说,量化测试过程、改进测试管理水平、提高测试自动化程度是保证测试质量进而保证产品质量和可靠性的重要途径。测试计划是测试过程的指导方针,测试计划
模型检验是一种基于对系统的状态空间进行穷举搜索的自动验证技术。对并发和实时系统进行模型检验时,状态数目往往随着并发分量和系统中无穷的时间值数目的增加呈指数增长;因
本论文主要介绍了8位精简指令集计算机微控制器(RISC MCU)的设计实现与标准化。该课题来源于十五国防预研项目“SoC在新一代战斗机的应用”。 本课题的主要研究内容为设计一款与Microchip的PICl6CXXX系列微控制器的指令系统完全兼容的,有自主知识产权的标准8位RISC MCU IP软核。 论文主要内容包括以下几方面: 1.根据功能需求以及对PIC16CXXX指令系统
系统开发方法的选择对信息系统建设的成败至关重要,虽然各种方法都有其自身的特点,但也不需要完全分开,本文即对OOIE(面向对象的信息工程,Object—Oriented Information Engineer
XML正在取代HTML成为互联网上信息发布和交换的标准.与HTML相比,XML简单,自我描述,实现了内容、结构和表现三者的分离,更适合于数据表示和交换.近来,XML在各种应用中得到了广
SLA是用户和服务提供商所签署的正式合同,它明确规定了所期望的服务质量的级别,包括所期望的服务的行为和服务质量的参数。当前,许多关键的商务活动依赖于网络、通信和信息服
该文从研究订单生产型企业ERP系统的特点入手,结合某印刷厂开展订单生产型企业ERP应用实践研究.在详细分析了印刷业ERP系统及其计划管理子系统的特点的前提下,提出了一种印刷