基于巩固学习的网络蜘蛛搜索策略研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:drjcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网技术的广泛应用,因特网上Web信息资源呈指数级增长,传统的搜索引擎正面临巨大的挑战。各类专业搜索引擎应运而生并受到广泛关注。网络蜘蛛搜索策略问题的研究,对专业搜索引擎的应用与发展具有重要意义。本文主要从机器学习的角度,围绕提高搜索效率的问题,采用巩固学习(Reinforcement Learning,RL)的方法,对专业搜索引擎网络蜘蛛的搜索策略进行了深入研究。 本文首先介绍了巩固学习的基本概念和网络蜘蛛搜索策略的研究进展,在分析和比较现有专业搜索引擎网络蜘蛛搜索策略的特点和优缺点的基础上,归纳了提高搜索效率的几个关键因素。 本文针对提高网络蜘蛛的学习效率问题展开研究,提出了一种基于隐偏向信息学习的巩固学习模型并改进了SARSA算法。改进算法的主要思想是,通过学习环境状态中的隐偏向信息,动态调整巩固学习代理体的搜索策略,以减小搜索空间,提高学习效率。针对“推箱”任务的实验表明该算法具有良好的性能。在此基础上,本文提出了一种基于隐偏向信息学习的网络蜘蛛学习算法,实验表明,该算法可以明显提高网络蜘蛛的学习效率。 针对传统的网络蜘蛛存在链接价值评价标准单一的问题,本文提出了一种基于巩固学习的启发式网络蜘蛛模型,新模型将立即回报价值和未来回报价值结合,用于计算链接的综合回报价值。为解决对立即回报价值和未来回报价值信任度的权衡问题,本文引入了价值置信函数的概念,提出了基于未来回报信度递减的启发式搜索算法,该算法的主要思想是将两类评价标准的优势相结合,以提高整体的搜索效率。针对于实际环境的搜索测试表明,新算法在性能上优于传统的网络蜘蛛搜索算法。 为了进一步提高网络蜘蛛的搜索效率,本文对网络蜘蛛搜索策略中存在的探测与发掘的权衡问题进行了研究,结合模拟退火的思想,提出了一种基于模拟退火的启发式搜索算法。该算法的主要思想是避免网络蜘蛛陷入局部最优解。针对于实际环境的搜索测试表明,新算法在整体性能上明显优于传统的网络蜘蛛搜索算法。 最后,本文将提出的算法和技术相结合,实现了一个基于巩固学习的计算机相关论文专业搜索引擎网络蜘蛛系统原型。
其他文献
本论文主要论述了无线接入Internet的一种全新途径——USSD网关的设计与实现。 数字移动通信网络在中国得到了迅速的发展,随着移动通信业务的增长,利用移动通信网络以及互联
学位
本课题“基于神经网络的发酵过程建模及控制开发环境研究”是天津市自然科学基金资助项目“抗生素发酵过程建模及控制开发环境的研究”的子项目。微生物发酵过程具有高度的非
小波变换是近年来迅速发展起来的一门理论,小波理论的出现为空间、频率多尺度分析提供了一个精确而统一的框架。小波变换在图像压缩、图像增强和图像融合领域中得到了成功的
本篇论文主要研究了自然输入汉字方法(包括键盘输入和联机手写汉字输入)的实现,致力于解决实现汉字自然输入过程中出现的若干问题。这里所谓的自然输入汉字的方法,是指无需经过
并发事务执行经历的限制条件是事务正确性和并发控制的基础,分布式实时事务的正确性包括结果正确性、行为正确性、结构正确性和时间正确性.该文根据分布式实时事务提交处理的
尽管网络出版和各式的电子书终端被媒体炒得火热,但电子书的产业链并未完全形成,主要瓶颈便是内容供应商/出版商与阅读终端之间如何衔接与架构.其中内容的格式起着重要的作用
随着计算机技术、网络技术和分布技术的发展,计算机应用正从单用户工作模式向多用户协同工作的方向发展。多个设计者对共享信息进行并行操作必然会产生冲突。处理分布数据的一
该文首先研究了非刚体特征点的对应问题.提出一种基于形状匹配的卡通运动捕捉算法.不同于以前基于骨架模型或者关键形状表示的方法,作者用整体仿射运动和局部非仿射变形的组
社会的进步,人民生活水平的提高,促使一些居民小区,饭店,企业,公司和部门提出了开设该单位VOD业务的需求、为此,开发研制低成本,小容量的VOD系统成为热点之一,该论文重点讨论