GOOGLE搜索引擎的关键词检索

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:zl9881123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1998年9月斯坦福大学两位博士生Larry Page与Sergey Brin设计了Google(www.google.com)搜索引擎,1999年Google Inc.创立。迄今,Google已经获得30多项业界大奖。Google的成功得益于其强大的功能和独到的特点,目前,各大引擎竞相模仿Google的功能和特色,如网页快照,偏好设置等。Google成为众多搜索引擎的领头羊。Google非中国本土公司,但它支持中文搜索,其中文搜索引擎是收集亚洲网站最多的搜索引擎之一,国内使用其独立搜索引擎的人数正迅猛增长。
  
  1.关键词的选择
  
  Google的关键词检索,所使用的关键词可以是字、单词,也可以是短语、词组或句子。使用Google进行检索非常简单,只要在搜索框内输入一个关键字,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。单个关键字搜索得到的信息量巨大,会带出海量的不相关信息,通常检索多是使用词语作为关键词。
  复杂课题检索,主题分析后就要进行正确选词。使用Google,不同关键词的选择,将决定检索结果排列不同,而且选词不准,无法发挥Google强大的检索功能,影响检索效率。
  如果检索专业或学术性信息,尤其是科技信息,建议在选择关键词时应注意以下几点:
  
  (1)选择专指性强的词
  关键词专指性强弱是影响查准率的重要因素之一,选用专指性强的关键词,则检出的网站针对性较强,查准率较高。专指性强弱是对选词表达主题的深度而言,要深入分析检索主题,选择研究的对象及其重要参数、概念等名词术语;选择所应用的对文章起关链作用的基础理论、方法、设备等名称;选择反映重要研究成果的词。例如,查找“网络检索工具的历史”有关的信息,选词时选用“搜索引擎”一词,比选用“检索工具”一词,查准率会更高。
  
  (2)多角度选词
  关键词的确定必须经过对检索主题正确分析得到。复杂主题的关键词,要将反映该主题的各个主要方面的词汇都提炼出来,以提高文献的查全率。例如,查找“搜索引擎发展的历史”,因为搜索引擎的历史,是与互联网早期的文件检索工具“Archie”相关的。此外,搜索引擎有个核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,“Yahoo”是优秀搜索引擎的代表。因此,除了选择“搜索引擎”、“历史”外,还要选择“Archie”、“蜘蛛”、“Lycos”、“Yahoo”等词。这些词都是起关键作用的检索词。
  
  (3)选择限制主题的词
  在关键词确定之后,运用检索技术并不能保证检索出来的信息都满意,有时查询的结果太多太泛。由于Google只搜索包含关键词的网页,除了增加表达主题的关键词,还可增加限制性的词语作为关键词,以排除多余的信息。例如:输入“红旗-汽车”,将会找到关于红旗但不含“汽车”的网页。
  
  2.检索式的构建及检索实例
  
  为了完整准确地表达检索需求,提高检索的精确度,正确选择关键词后,还需要了解和运用Google各种检索语法与技巧,根据Google提供的操作、运算符和使用规则说明,设计出一个高质量的检索式。
  
  (1)逻辑检索
  Google用空格表示逻辑“与”操作,用减号“-”表示逻辑“非”操作。“A-B”表示搜索包含A但不包含B的网页。Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。
  
  (2)通配符检索
  很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。为提供最准确的资料,Google不使用“词干法”,也不支持“通配符”(*)搜索。也就是说,Google只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。
  
  (3)短语或者句子检索
  Google的关键词可以是单词,也可以是短语。用短语做关键字,必须加用英文双引号,否则空格会被当作“与”操作符。双引号中的词语(比如“自然与文化遗产”)在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。
  
  (4)搜索引擎忽略的字符以及强制搜索
  Google对无实义的词或一些网路上出现频率极高的英文单词,如“i”、“com”、“www”、“的”等,以及一些符号如“*”、“.”等,作忽略处理。如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。另一个强制搜索的方法是把上述的关键字用英文双引号引起来。例如,检索“internet上www的历史”,检索式为:+www+的历史internet。又如,“www的历史”中,“的”其实是忽略词,但因为被用英文双引号引起来,搜索引擎就强制搜索这一特定短语。注意:大部分常用英文符号(如问号、句号、逗号等)无法成为搜索关键字,强制也不行。
  
  (5)实例——查找有关“搜索引擎的历史”的信息
  对此课题检索,搜索有关搜索引擎的中文(简体)网页,上网时间为2002年11月18日1025。
  [检索式1]搜索引擎
  [结果1分析]已搜索有关搜索引擎的中文(简体)网页。共约有77.9万项查询结果。前十项,绝大部分链接是搜索引擎本身,而不是对搜索引擎的或者搜索技巧方面的介绍。
  [检索式2]搜索引擎历史
  [结果2分析]共约有8.32万项查询结果。用了两个关键字,查询结果已经从77多万项减少到8万多项。但查看一下搜索结果,发现绝大部分结果还是不符合要求,大部分网页涉及的“历史”,并不是我们所需要的“搜索引擎的历史”。必须要删除与搜索引擎不相关的“历史”。研究结果发现,这部分无用的信息,总是和“文化”这个词相关的,另外一些常见词是“中国历史”、“世界历史”、“历史书籍”等。
  [检索式3]搜索引擎历史-文化-中国历史-世界历史
  [结果3分析]通过去掉不相关信息,搜索结果又减少为3.8万项。第一个搜索结果(搜索引擎直通车≡搜索引擎发展历史),非常符合搜索要求。第三项搜索结果(463搜索王 --首页 >>
  Internet搜索手册 >>搜索引擎的历史……),也符合搜索要求。但10个结果只有两个符合要求,检准率太低。为了建立更佳的检索式,须对课题深入了解。先点开第一个结果看看,点开se-express.com的这个名为“搜索引擎发展历史”的网页,发现搜索引擎的历史,是与互联网早期的文件检索工具“Archie”息息相关。此外,搜索引擎有个核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,使搜索引擎深入人心的是“Yahoo”。了解了这些信息,就可以进一步建立更完美的检索式,让搜索结果符合要求。
  [检索式4]搜索引擎历史archie OR蜘蛛OR lycos OR yahoo-文化-中国历史
  (“世界历史”被忽略,因为Google的查询限制在10个字词之内)
  [结果4分析]共约有8050项查询结果。搜索结果缩小到8千多项,前20项结果中,大部分都符合搜索要求。
  
  (6)检索式的实现
  检索式的实现可以在搜索框内一次输入,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。也可以一次添加一个词语在“在此搜寻结果的范围内查询”。还可以不用操作符和运算符,在高级搜索查询网页中,按提示在搜索框内输入关键词的实现,如以上检索式4可分解写为“可包含以下全部的字词:历史;包含以下的完整字句:搜索引擎;包含以下任何一个字词:archie蜘蛛lycos yahoo;不包括以下字词:文化中国历史”。
  用操作符和运算符时,须注意操作符与作用的关键字之间有否空格。比如“-”的使用,“搜索引擎 -文化”,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。“与”操作必须用大写的“OR”,留有空格且不是小写的“or”。双引号用英文引号等。▲
  
  参考文献
  1 .Google大全.http://www.google.com.
  2. 刘艳.谈搜索引擎Google.图书馆学刊,2002(3)
  3 Donquix.如何使用Google搜索引擎.家庭电脑世界,2001(7)
  (作者单位:华南理工大学图书馆广东广州510640)
其他文献
随着从2003年开始中小企业 ERP市场的急剧回升,国外的SAP及国内的用友、金蝶等ERP厂商纷纷发布了针对中小企业的ERP软件产品,一时间市场上充斥着各种各样的ERP软件产品,然而由于 ERP相关知识的缺乏,许多中小企业在ERP实施中败下阵来。那么,如何才能提高ERP的实施成功率呢?笔者认为,树立正确的理念是中小企业ERP实施的重中之重,在此提出了ERP实施中应当遵循的五项理念。    ERP本
期刊
面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的 Web应用,而且可以实现Web中的信息共享与交换。 XML是“可扩展标记语言”的缩写。XML规格是由全球信息网标准制
期刊
近年来,浙江省科技信息研究院遵循“建设科技信息资源,做强科技信息服务,发展科技信息事业”的宗旨,在科技信息服务体系创新方面进行了有益的探索。    一、以改革促创新,以创新促发展,建立科技创新保障体系。    科技信息服务的创新,首先依赖于制度的创新、机制的创新,只有改变在计划经济时代的财务、用人和分配机制,建立起适应市场机制的运作机制,信息机构才能有自己的利益目标,才能有追求利益的动机,才能有关
期刊
一、基于构件/构架的软件开发方法    上世纪60年代开始就出现了“软件危机”,当时一个大型复杂软件,要花上千人几年的工作量才能实现,而开发质量极差,常常可能包含成千上万个错误。为了解决这个问题,荷兰的一位物理学家E.W.Dijkstra采用数学的解题方法,提出了一种称为结构程序设计的方法,应用于开发大型软件系统时称为“结构化分析和结构化设计”。这种方法延用了十多年的历史,形成了软件工程这门学科。
期刊
本刊讯2月28日,中共中央、国务院在北京人民大会堂隆重举行国家科学技术奖励大会。党和国家领导人江泽民、胡锦涛、朱基、李岚清、吴邦国、温家宝、曾庆红、李长春出席大会并为获奖代表颁奖,充分体现了党和国家对科技事业的高度重视和对广大科技工作者的亲切关怀。胡锦涛主持大会,朱基代表党中央和国务院在大会上讲话。  这次经科学技术部审核、国务院批准获得2002年度国家科学技术奖励共269项(人)。其中:国家
期刊
Wiki(维基)一词源于夏威夷语“wee kee wee kee”,本意是“快点快点”。Wiki指一种超文本系统。这种超文本系统支持面向社群的协作式写作,同时也包括—组支持这种写作的辅助工具。我们可以在Web的基础上对Wiki文本进行浏览、创建、更改,而且创建、更改、发布的代价远比HTML文本要小。Wiki系统支持面向社群的协作式写作,为协作式写作提供必要帮助。Wiki的作者自然构成了一个社群,W
期刊
金怡濂,男,汉族,1929年9月出生于天津市,中共党员。1951年毕业于清华大学电机系;1956年至1958年在苏联科学院精密机械与计算技术研究所进修电子计算机技术;1994年当选为中国工程院首批院士;1994年至2000年为中国工程院主席团成员和中国工程院信息与电子工程学部主任。现任国家并行计算机工程技术研究中心主任、研究员,中国计算机学会名誉理事。  在2002年度国家科学技术奖励大会上,当我
期刊
日前,本刊记者在一次信息化大会上拜见了中国工程院院士、中科院计算所研究员倪先南,并借此机会请他就我国2004年软件产业的发展和软件应用情况发表一些意见和看法。下面就是倪光南院士接受采访时的谈话纪要。    记者:您对我国软件产业的总体发展作何评价?    倪光南:2004年我国软件产业有了很快的增长。从发展趋势来看,按47号文件规划目标,我国到 2005年软件市场销售额达到2500亿元是能够实现的
期刊
本刊讯第七届世界计算机博览会暨第二十四届中国计算机产品北京展览交易会COMDEX/China 2003于2003年4月1日至4日在北京展览馆举行。  COMDEX/China 2003是中华人民共和国信息产业部、科学技术部和中国国际贸易促进委员会主办的国内最大的计算机产品展览交易会,可为中国IT产业供需双方提供最有价值的交流与业务合作平台。会上,全国各地的各类企业、科研院所和各级政府机关的信息化建
期刊
Windows XP的安全措施    微软在Windows XP的安全性方面做了许多工作,增加了许多新的安全功能。微软Windows XP采取的安全措施有:    1.完善的用户管理功能  Windows XP采用Windows 2000/NT的内核,在用户管理上非常安全。凡是增加的用户都可以在登录的时候看到,不像Windows 2000那样,被黑客增加了一个管理员组的用户都发现不了。使用NTFS
期刊