搜索引擎中初始URLS优化研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:liongliong474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网的信息是海量的,如何从这些海量的信息中获取重要的和用户查询相关的信息资源是很重要的,个性化搜索引擎在这样的背景下产生了。然而,当前搜索引擎返回的搜索结果数目非常庞大,要从这么多的结果中找到有用的信息,有时候显得很困难,如何获得更好的搜索结果,通过好的初始URLS更好的帮助用户找到自己感兴趣的信息,是本文的研究重点。搜索引擎的一个重要组成部分就是网络爬行虫,它是搜索引擎不可缺少的组成部分。本文就是从爬行虫入手,重点讨论爬行虫的爬行起点初始URLS的形成,通过初始URLS的个性化达到用户个性化的目的。本文依此思路,就初始URLS的获得,做了一系列的工作,并取得了如下研究成果:1.本文提出了网络爬行虫初始URLS侯选集合的形成的基本思想和方法。根据用户输入查询条件,从著名搜索引擎(AltaVista,DirectHit,Excite,Google,HotBot,Lvcos and Yahoo,etc)搜索库中及时返回部分网页作为初始URLS集合侯选集合。具体地,在实现方式上,本文讨论了通过调用Google搜索引擎提供的Web Service Api函数,让Google返回大量的URLS,作为后续研究工作的起点。2.本文在有序概念格的概念的理论基础上,提出了通过设定的访问次数下界得出用户的频繁访问路径,把这些路径按照频繁路径在用户访问路径中出现的次数大小排序,再结合用户的历史点击获得用户的兴趣URLS集合的方法,并给出了其实现的算法,通过实例分析,说明了该方法的有效性。3.本文研究中,提出了基于数据挖掘技术的种子URLS集合形成方法,通过对用户浏览历史及其日志的挖掘形成用户兴趣库,利用1中的候选集合,进行切词分词处理,形成网页文本向量,通过与用户兴趣向量的相似度计算获得优化后的兴趣种子URLS集合,作为下一次爬行的种子,也可以直接返回给用户URLS集合,供用户点击。4.最后,本文发展了一个网络爬行虫程序(MySpider),在西华大学校园网实验环境中验证了基于数据挖掘技术的种子URLS集合形成方法,通过与Google、Baidu、Learnable Crawler实验对比,MySpider搜索结果的用户满意度、网页召回率都较其它搜索引擎高,同时通过实验得出了“MySpider通过三次递归爬行返回给用户结果是充足的,合理有效的”的结论。
其他文献
随着互联网的飞速发展,人们的生活、工作和学习与互联网的联系越来越紧密,它已成为人们实现资源共享和信息交流的最重要传播媒介,从单一的行业互联网发展成为深入我国各行业的社
数学公式作为全人类科学的语言,在全球尤其科研学术界有着极为广泛和重要的应用。数学公式的评测工作不仅为算法的研发人员提供了翔实的算法实现效果的数据描述,指导研发人员有
随着计算机软件技术的飞速发展,软件的功能不断变强,软件的复杂度也不断增加,软件的版本更新也不断加快,尤其是软件的内部版本的发布速度更是令人吃惊。IBM公司的某大型软件平均
随着当今计算机网络技术和多媒体技术的发展,远程教育也进入到了一个崭新的发展阶段,即第三代远程教育。第三代远程教育具有数字化、多媒体和交互式等显著的技术和教学特征,它是
随着互联网技术的发展,网络安全问题已经成为目前计算机网络发展所迫切需要解决的问题。防火墙技术是目前保障网络安全的主要手段之一。传统的边界防火墙在保证网络安全中发挥
近年来,我国道路交通事故越来越多,特别是高速公路交通事故越来越严重。如何减少和预防交通事故,降低事故损失,改善交通安全状况就成了道路交通运输领域亟待研究解决的问题。要实
在一个理想的交流电力系统中,电能是以一恒定的工业频率(50Hz 或60Hz)和正弦的波形形式传输的。电力系统频率的波动,电压的波动和闪变(波动的幅值和频率),供电的连续性(年不停电
随着信息经济时代的来临和经济全球化的进一步加快,信息化浪潮正席卷全球,信息化革命正在打破并重组现存国际经济秩序和架构,并促使其由物质型向信息型经济转变。大量的企业为了
基于全景图的全景空间在虚拟现实应用中扮演着重要角色。全景空间将传统二维平面,如电子地图、平面设计图等,转换为三维立体展示,如街景地图等,增强了空间立体感。但是,目前构建全
随着互联网技术的快速发展和全球信息化步伐的日益加快,现代互联网路作为信息社会的基础设施已渗透到社会的各个方面。提供网络资源服务的各类网络服务系统获得了广泛的应用,许