基于Shark优化算法的主题搜索引擎研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:nancyqi117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于高新技术不断推动着产业种类与结构向专业化和精细化发展,那么如何高效获取专业实用信息成为了人们普遍关注的问题之一。因传统搜索引擎的检索精度不断下降,于是掀起了研究基于主题的搜索引擎的热潮。本文以搜索引擎相关理论基础为铺垫,简明介绍了搜索引擎的特点、基本架构、关键技术以及主题网络爬虫的原理、结构及工作原理等,接着详细分析了常见的三种主题爬行算法与比较了Page Rank与HITS两种基于链接结构的网页排序算法,针对使用单一的评估方法无法达到有效预测链接地址实际价值的目的,提出了基于内容评估与Web链接结构组合的搜索策略方案,并基于主题搜索引擎基本思路提出了一种新的主题爬行模型和设计了一种新的多线程协作式主题爬行器。在讨论与设计了搜索引擎基本方案与爬虫系统之后,针对shark算法存在的不足,如无关网页后面连接着相关网页链接、优先度区别过小及URL队列过长,提出了优化改进思路,同时也设计与实现了shark算法,最后根据网页内容链接相关性计算,描述了多媒体主题的网页搜索算法实现步骤与通过仿真实验比较了传统Fish、shark Search算法与优化的shark算法。与通用搜索引擎相比,主题搜索引擎像是一种变体,它在其基本结构与技术上优化了通用搜索引擎的一些功能。为了专业用户更高效更准确地获取所需要的专业领域信息,特针对主题搜索引擎设计了网络爬行器,其爬行网页的基本思想是:针对既定主题搜索网页并过滤与主题无关的网页,留下主题相关网页。Shark-Search算法是一种十分有代表性的主题搜索引擎算法,根据多媒体素材在网页中分布特点,Shark-Search算法主要从三个方面:搜索广度、链接相似性判断与要抓取链接选择策略上做了进一步优化,而且采用“先搜索、后判断”的查询方案,大大提升了多媒体网页主题搜索的效率。
其他文献
一、调查结果为了摸清合肥地区平屋面防水现状,探讨解决平屋面渗漏的新途径,合肥市房地局于1988年成立了“平屋面防水攻关小组”,并对直管公房平屋面渗漏情况进行了抽查。这
用国产纤维级聚酯切片,在常规纺丝设备上生产细且涤纶高强丝,讨论了纺丝温度、喷丝板、纺丝组件、拉伸工艺对细旦丝生产的影响,并用正交试验法对拉伸工艺条件进行优选,采用优
6月1日,广西河池日报社组织近30名采编人员,在社长、总编辑石锋的带领下,赴广西河池市辖区内的宜州市洛西镇妙调村纳贡屯开展“体验新农村,实践‘三贴近'”为主题的实践活动,与农民
期刊
在新世纪的媒体竞争中.处于天然弱势地位的地市州党报不但要和自己的同门兄弟——上级党报及各类娱乐生活服务类报纸争夺地盘,还要面对电视、互联网等“媒体新贵”的强劲冲击.尤
英国诗歌自始至终贯穿着死亡的主题.死亡美学主张死亡作为崇高的对象之一压倒了理性存在者的理性,让人们从庸俗普通走向真正的道德自由.它要求艺术在直接地呈现人的生存状态