搜索引擎及其经典算法

来源 :今日湖北·下旬刊 | 被引量 : 0次 | 上传用户:czh126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎等。
  关键词 搜索 算法
  一、概述
  搜索引擎是采用特定的程序(spider)完成从互联网中提取信息的数据库系统,它的主要功能是为用户提供全网范围的快速查询。它将信息存储为表格的形式,这就是索引(index)。在索引数据库中,网页中所有内容,包括文本内容以及相应的格式、控制、关键词语出现的位置等信息都有相应的记录。我们搜索关键字时,相关的页面会被找出来,并按照关键词相关程度、用户欢迎程度等指标排出顺序,这就是排序算法。
  搜索引擎一般分为全文搜索引擎、目录式搜索引擎、元搜索引擎。1、全文搜索引擎:目前百度、谷歌、AltaVista、Lycos等是全文搜索引擎的代表,但其中有部分搜索引擎没有自己的蜘蛛程序,需要租用其它搜索引擎的数据库,但用自己的排序算法对搜索结果进行排序。从这里可以知道,排序算法才是搜索引擎最核心的机密。搜索引擎获取信息有两种方式:一种是主动定时采集,也就是用爬行器对各网段进行定时检索;第二种是由网站自行提交网址,由搜索引擎审核。
  2、目录式搜索引擎:目录搜索引擎没有爬虫程序,此类搜索引擎的功能只有对提交给它的网站进行分类整理。网站对它提交关键住处,引擎对他们分类,形成一个链接到站点的目录列表。这些引擎的代表为新浪目录、Dmoz、雅虎搜索等等。3、元搜索引擎:它们实际上只是搜索引擎与用户之间的接口,用户提出请求之后,它在众多搜索引擎上检索,排自己的算法进行筛选和排序。问答聚合就是一个元搜索引擎。
  二、搜索引擎组成
  1、Spider/爬虫:搜索引擎使用大量爬虫检索整个网络,将各服务器中的数据采集到本地数据库中。爬虫从已有数据库开始,在网页中逐级逐个查找链接,直到找完所有链接。从理论上讲,爬虫可以找到互联网所有网页。但有数据表明,部分网页无法找到;另外,个别搜索引擎通过不正当手段采集信息孤岛。
  2、索引器与索引数据库:索引器的主要功能是将收集来数据进行分析,提炼出其中的索引项,用倒排索引的方式建立数据表,按关键字搜索对应的文档。
  3、 检索器:检索器获得网页,然后计算文内容与查询要求的相关程度,根据相关程度的高低来排序展现。因此,排序算法是评价搜索引擎优劣重要指标。
  三、 排名引擎算法
  1、 第一代排序算法: 词频统计和词位置加权。
  文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常 小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF(Term Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。IDF(Inverse Document Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大,此关键词的权重越小,反之亦然。当关键词为常用词时,其权 重极小,从而解决词频统计的缺陷。词位置加权是通过对检索关键词在Web页面中不同位置和版式,给予不同的权值,从而根 据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗等等。同时,锚文本的信 息也是非常重要的,它一般能精确的描述所指向的页面的内容。
  tf-idf模型:
  2、第二代算法:链接分析
  链接分析排序的思路是,网页被引用的次数越多,说明该网页越受欢迎,被越权威的网页引用,说明该网页质量越高。下面介绍两个经典算法:
  (1)PageRank算法
  PageRank算法是Google搜索引擎采用的静态算法。它的基本思想来源于学术文献引用,论文被引用的次数越多,价值越大。若引用者的权威性高,则被引用者权威性也增加。相应的,网页重要程度也由两个方面衡量:一、引用该页的页面个数,二、引用该页的页面重要程度。
  d:阻尼系数。为避免链接沉淀问题提出的系数,常指定为0.85;
  PR(Ti):网页Ti的PageRank值;
  C(Ti):网页Ti链出的链出数量。
  这个公式是收敛的,多次迭代后将得到稳定的值。实验证明,迭代十次后值趋于稳定。
  (2)HITS算法
  HITS(Hyperlink Induced Topic Search)算法,是另一个著名的超链分析算法。该算法将网页分为hub(中心页面)和Authority(权威页面)。Authority页是与用户查询的关键词最相近的页面,hub页的主要内容是大量指向Authority页的链接,相当于Authority页的目录。一般来说,好的Hub网页指向许多好的Authority网页,好的Authority网页是由许多好的Hub网页所指向,这便是相互加强模型。通过这种关系可以计算出Authority属性较高的网页,也就是重要性强的网页。
  中心值和权威值相互加强的公式:
  ,迭代以后规范化,即可得到期望结果。
  四、发展趋势
  1、垂直搜索引擎,此类搜索引擎是对数据库中数据的再次筛选,只搜索特定领域或行业的内容。在某种程度上,这可能会解决搜索引擎结果太过宽泛的问题问题。
  2、 个性化搜索引擎,它基于用户习惯的详细分析。这需要对用户进行长期的监视,显然与保护个人隐私有着不可回避的矛盾。3、知识搜索引擎,它不是单纯搜索工具,而是实现知识管理的一种工具,通过搜索引擎技术完成知识管理。实现知识汇聚、知识发现、知识分类、知识聚类、知识门户的构建等。
其他文献
军转干部安置是军队和地方都要面临的一项重要工作,且难度在不断增加。教育资助制度借鉴国外退役军人培训经验,结合我国军转干部实际和高等、职业教育现状,立足于给军转干部提供
期刊
近些年来,有许多老师在教学活动中都注意到了这样一种情况:有一部分同学在小学的时候有不错的成绩,但当升入初中后,他们的成绩就不够理想了。其中,语文成绩的变化尤为突出和明显。初中教师在教学过程中发现,大部分同学在小学语文的学习过程中,学习方法较为机械呆板,这使得他们在进入初中后,要花费很长一段时间才能够适应中学阶段的语文学习。以上的这些现象都说明了同一个问题,我们需要加强中小学的语文学习的衔接与过渡。
期刊
与沈阳桃仙国际机场咫尺相间的桃仙镇古台南屯,坐落着宽敞整洁的志英行鞋业工业园。园区内一栋白色小楼的4层有一间普通办公室,它的主人就是新加坡志英行集团的总裁及首席执
计算机技术越来越广泛地利用到了社会的各个领域,计算机操作技能也成为了当代技校学生的知识与能力结构的一个重要组成部分,所以,计算机基础教学是技工教育中必不可少的内容。随着家庭对计算机的普及,很多技校学生对计算机并不陌生,但由于地区经济发展不同,学生对电脑的熟悉程度存在着一定的差异。目前,各技工学校根据教学大纲在各个专业普遍开设了计算机基础课程,但是很难把握得好传授计算机理论知识和技能操作时学生应该掌
期刊
2015年9月,国务院出台了《关于深化国有企业改革的指导意见》,为全面深化国企改革指明了方向.鼓励民营资本参与国企改革,将有利于转变国企经营机制,挖掘民企增长潜力,实现国
8月1日,朝阳冉冉升起,海南又迎来了新的一天。在雄壮的国歌声中,省委六届六次全会拉开序幕。这是一个具有重大意义的时刻——当前,全省上下正在全面深化改革、全力推进灾后重
曼德拉的离世引起了世界瞩目,90多个国家领导人前往南非参加葬礼,他赢得了全世界的尊重。曼德拉横跨后殖民时代、南非种族隔离时代、冷战时代和全球化时代,不同的时代赋予他不同的身份,从全球最知名的囚徒到南非首任黑人总统,从革命者到和解宽容的布道者,他身上叠加的政治标签和文化标签,不仅是他个人所独有,也凝聚了与他同期的反抗和推动和解的共同记忆,即中国人熟悉的“光辉岁月”。   在历史演变的过程中,曼德拉
现如今,随着我国经济的发展,土木工程建筑施工技术对土木工程建设具有重要的作用,它在保障工程质量前提下,节省了大量的人力物力.传统的土木施工技术已经远远不能满足现代土
期刊