论文部分内容阅读
因特网信息检索的方法
要想在因特网上获得所需信息,就必须知道这些信息存储在哪里,即知道提供这些信息的服务器在因特网上的地址,然后通过该地址去访问服务器并获得所需信息。在因特网上,信息资源的一般查询方法是基于超文本的信息查询、基于目录的信息查询和基于搜索引擎的信息查询。
基于超文本的信息查询也称浏览,在利用浏览法进行检索时,用户只需以一个节点作为入口,根据该节点的文本内容,嵌入其中链接指向的主题,然后!择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关节点的内容根本没被自己所预想到,而是在浏览过程中不断蹦出来,提醒用户注意它。基于目录的信息查询是基于网上目录一般以主题方式组织,大主题下又包括若干小主题,用户只要一层一层地查下去,就可得到具体的信息标题。目录存放在www服务器里,各个主题通过超文本的方式组织在一起,用户通过目录得到所需信息的网址后,即可到相应的地方查找信息,这种通过目录获得所需信息的网址继而查找信息的方法称为基于目录的信息查询。Yahoo就是一个非常著名的基于目录查询的网址。
基于搜索引擎的信息查询,搜索引擎是因特网上的服务站点,是www上的一种信息检索软件,其工作原理是基于对信息集合和用户需求的匹配和!择。只要输入检索词以及检索词之间的逻辑关系,检索软件就根据输入信息在索引库中搜索,获得因特网上的一系列节点地址并输出给用户,用户据此可再做下一步的检索。常用的搜索引擎有以下几种:
元搜索引擎。这类搜索引擎将用户的查询请求同时向多个搜索引擎递交,并将所有查询结果集中起来以统一的格式呈现给用户,其优点是能够在尽可能短的时间内提供相对全面、准确的信息。这类搜索引擎的代表是WebCrawler(http://www.webcrawler.com)。
智能搜索引擎。一般的搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅采用机械的关键词匹配来实现。智能搜索引擎能把基于关键词层面提高到基于知识(或概念)层面,提高了检索效率。目前国内较先进的智能搜索引擎是百度(http:/www.baidu.com/)。
专用搜索引擎。如果想查找电话、人名、电子邮件、地址等资料,必须使用专用搜索引擎。这些搜索引擎专门搜集某一类的信息资源,内容丰富,数据量大,能帮用户迅速找到一些专门的信息,如域名搜索引擎、地图搜索引擎、明星搜索引擎等。
专业搜索引擎。专业搜索引擎是特定学科的信息查询工具,几乎每个学科都具有相关的专门搜索引擎,例如对旅游者来说,有中国旅游网(http://www.cnta.gov.cn/);法律方面有中国法律信息网(http://www.law-star.com/)、中法网(http://www.1488.com);专利方面有中国专利信息网(http://www.patent.com.cn/)、Derwent专利网站(http://www.thomsderwent.com)和各国的专利网站等;对于化学化工学科来说,有CAS(美国化学文摘社,http://www.cas.org)、化学在线(http://www.chemonline.net/)等。专业人员可有针对性地从专业网站上搜寻自己所需信息,避免非专业搜索引擎信息冗余多、无用信息混杂的现象。当用户对专业网站不甚了解时可先借助一般搜索引擎,如搜搜、Google、百度等,查出一些专业网站并牢记待用。
Google等搜索引擎的使用
搜索引擎提供网上绝大部分的检索服务,常用的英文搜索引擎有Google (http://www.google.com)、yahoo(http://www.yahoo.com);中文搜索引擎有百度 (http://www.baidu.com)、易网(http://www.126.com)、天网(http://www.e.pku.edu.cn)、雅虎中国(http://www.yahoo.com.cn/)、搜狐(http://search.sohu.com)等。其中以Google最为著名,除了提供常见的web检索之外,它还提供包括人物、图片、多媒体、商品检索、翻译以及在线股票等各种服务。Google提供的服务主要有:
图像搜索。能搜索数以亿计的图片,其用户界面简洁、友好,不足之处是“安全搜索”只支持用英语检索。
新闻组搜索。Google链接了全世界所有著名新闻网站,只要输入检索词,Google就会迅速在这些网站里查找;此外,新闻组还提供各种主题讨论区,不足之处是其内容以英文居多。
在线英文字典。只要输入要查找的单词,浏览器就会显示出有关该单词的信息。
页面翻译功能。如果搜索中出现了非英文结果,Google会提供翻译或英文译本的链接,标题后则出现“Translate this page”字样。
网页快照。Google在进行网页搜寻时,会给网页做一份索引快照,并将其储存到服务器中,当用户不想访问检索到的网页,只是想大略浏览其内容或检索到的网页无法访问或已被删除时,“网页快照”可更好地满足用户需求。
购物。该服务可以让用户按类别或产品名称进行搜索,向用户免费提供准确的商品信息,与专门购物网站不同,它只提供用户和企业联系的渠道,本身并不提供商品。
在线答疑。 Google雇用专业人员就用户提出的问题进行解答,比如健康咨询等(该服务是收费的)。
旅游信息查询。用户想了解某地区的天气情况、航班、火车车次等信息,只要输入相关的关键词,就可得到所需信息。此外,Google还提供地图检索、电话本服务等。
因特网信息检索的策略
检索策略是为实现检索目的而制定的执行计划或方案,它对整个检索过程起运筹和指导作用。一般来说,检索策略包括检索课题分析,检索工具、检索方法和检索手段!择,检索标识表达,检索程序优化和检索步骤确定等。其目的是广、快、精、准,省时、省力、省钱地获得所需信息。
课题分析是检索策略的重点。做好了这一步,其余的就容易多了。课题分析的关键是明确目的要求、突出检索重点、分析检索范围、!定语种地域等。
!择适当的检索系统或网站是关键。正确!择检索系统或网站对检索的成功至关重要。首先要熟悉不同检索系统或网站的收录范围、内容、信息可靠性、检索方法、用户界面、检索效率等,然后是结合检索课题特点,尽量!择与信息需求结合紧密、学科专业对口、覆盖信息面广且量大、报道及时、揭示信息内容准确、有一定深度且检索功能完善的检索系统或网站。
检索标识(词、短语、分类号、作者等)的!定是核心。!定检索标识要遵循两个原则:一是提高其切题性,二是提高其匹配性。提高切题性可直接将课题名称中的主要概念作为检索标识,也可从专业、技术、学科的角度对研究内容进行仔细分析,找出确切的主题概念作为检索标识。提高匹配性可使用同义词、近义词和相关词等。
构造恰当的检索提问式是目标。恰当的检索式构造,是建立在良好的课题分析和对!定检索系统或工具的检索软件、所使用的逻辑、位置符号等情况的了解与运用基础上的。在构造检索提问式时,要确定检索标识之间的概念关系和位置关系,准确表达课题需求的内容,灵活使用各种符号;要充分利用所!检索系统或搜索引擎的功能,必要时可借助其“帮助”。
因特网信息检索的技巧
检索技巧主要是研究如何充分利用检索系统和检索工具所提供的各种功能及检索者所掌握的知识和技能,最大可能地提高检索效率。在此要讨论的是如何提高查准率和查全率问题。如何提高查准率呢?
(1)尽量使用相应的专业搜索引擎、传统情报信息网站、图书馆的门户网站等进行检索。
(2)提高检索式的专指度。增加或使用下位词和专指度较高的检索词,用逻辑乘、逻辑非符号将不同的主题概念连接起来等。
(3)尽量利用准确、复合的全部信息(词组、短语甚至句子)去进行检索。
(4)增加概念以进行限制。可用逻辑乘符号连接原概念和增加的相关概念,也可用逻辑非符号限制一些不相关的概念以缩小检索范围。
(5)利用词组或短语。通常是将组成词组或短语的若干词加上双引号进行检索。
(6)尽量使用专业词汇。使用专业性或专指性更强的下位检索词,特别是使用复合词进行检索,可提高查准率。
(7)利用字段检索。可把检索范围缩小到相关字段,如标题、URL、图像等。
(8)利用检索引擎提供的二次检索功能或高级搜索功能。如果利用初级检索命中很多记录的话,可利用二次检索功能或高级搜索功能以使检索结果更加切题。
(9)利用分级检索。所谓分级检索是指首先进行网元(网上检索单元,涉及网页、网上新闻组、网上数据库等)检索,找出有关网址,然后再在有关网址上进行该网址上的传统信息检索。这里的分级检索不同于因特网查询或传统信息检索中的分次检索。分次检索是在第一次检索集合中进行的第二次同一性质的检索,而分级检索则是从网间收缩到单个网址检索。分级检索实际就是到信息应该在的地方去查询信息。如何提高查全率呢?
(1)使用多个检索系统或搜索引擎。研究证明,各搜索引擎数据库的重叠并不大,所以,要提高查全率必须利用找多个搜索引擎进行检索。
(2)利用截词符(后截断、前截断、中间屏蔽)可提高查全率。
(3)利用逻辑“或”运算符将同义词、近义词、相关词等连接起来以提高查全率。
(4)利用检索词的上位词或广义词进行扩检。
(5)尽可能利用检索系统所提供的各种检索途径,如题名、分类、作者、关键词及其他有检索意义的单元等,从不同的检索途径查出更多的相关信息。
(6)分层次进行检索。即先将检索需求分析为不同层次及同一层次的不同方面,然后从这几个层次和方面分别进行检索,再对各层次检出的信息进行分析、综合,找出相关的信息。
(7)充分利用检索系统或搜索引擎的链接功能,以获得更多相关信息。
(8)除显性主题外,还要对隐性主题进行检索,即在对信息需求进行主题分析时,既要注意显性主题概念的表达,又要注意隐性主题概念的提取,特别是当显性主题专指度过高、查全率不理想时,使用隐性主题检索往往能够获得较好效果。
(作者单位:濮阳市图书馆)
编校:杨彩霞
要想在因特网上获得所需信息,就必须知道这些信息存储在哪里,即知道提供这些信息的服务器在因特网上的地址,然后通过该地址去访问服务器并获得所需信息。在因特网上,信息资源的一般查询方法是基于超文本的信息查询、基于目录的信息查询和基于搜索引擎的信息查询。
基于超文本的信息查询也称浏览,在利用浏览法进行检索时,用户只需以一个节点作为入口,根据该节点的文本内容,嵌入其中链接指向的主题,然后!择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关节点的内容根本没被自己所预想到,而是在浏览过程中不断蹦出来,提醒用户注意它。基于目录的信息查询是基于网上目录一般以主题方式组织,大主题下又包括若干小主题,用户只要一层一层地查下去,就可得到具体的信息标题。目录存放在www服务器里,各个主题通过超文本的方式组织在一起,用户通过目录得到所需信息的网址后,即可到相应的地方查找信息,这种通过目录获得所需信息的网址继而查找信息的方法称为基于目录的信息查询。Yahoo就是一个非常著名的基于目录查询的网址。
基于搜索引擎的信息查询,搜索引擎是因特网上的服务站点,是www上的一种信息检索软件,其工作原理是基于对信息集合和用户需求的匹配和!择。只要输入检索词以及检索词之间的逻辑关系,检索软件就根据输入信息在索引库中搜索,获得因特网上的一系列节点地址并输出给用户,用户据此可再做下一步的检索。常用的搜索引擎有以下几种:
元搜索引擎。这类搜索引擎将用户的查询请求同时向多个搜索引擎递交,并将所有查询结果集中起来以统一的格式呈现给用户,其优点是能够在尽可能短的时间内提供相对全面、准确的信息。这类搜索引擎的代表是WebCrawler(http://www.webcrawler.com)。
智能搜索引擎。一般的搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅采用机械的关键词匹配来实现。智能搜索引擎能把基于关键词层面提高到基于知识(或概念)层面,提高了检索效率。目前国内较先进的智能搜索引擎是百度(http:/www.baidu.com/)。
专用搜索引擎。如果想查找电话、人名、电子邮件、地址等资料,必须使用专用搜索引擎。这些搜索引擎专门搜集某一类的信息资源,内容丰富,数据量大,能帮用户迅速找到一些专门的信息,如域名搜索引擎、地图搜索引擎、明星搜索引擎等。
专业搜索引擎。专业搜索引擎是特定学科的信息查询工具,几乎每个学科都具有相关的专门搜索引擎,例如对旅游者来说,有中国旅游网(http://www.cnta.gov.cn/);法律方面有中国法律信息网(http://www.law-star.com/)、中法网(http://www.1488.com);专利方面有中国专利信息网(http://www.patent.com.cn/)、Derwent专利网站(http://www.thomsderwent.com)和各国的专利网站等;对于化学化工学科来说,有CAS(美国化学文摘社,http://www.cas.org)、化学在线(http://www.chemonline.net/)等。专业人员可有针对性地从专业网站上搜寻自己所需信息,避免非专业搜索引擎信息冗余多、无用信息混杂的现象。当用户对专业网站不甚了解时可先借助一般搜索引擎,如搜搜、Google、百度等,查出一些专业网站并牢记待用。
Google等搜索引擎的使用
搜索引擎提供网上绝大部分的检索服务,常用的英文搜索引擎有Google (http://www.google.com)、yahoo(http://www.yahoo.com);中文搜索引擎有百度 (http://www.baidu.com)、易网(http://www.126.com)、天网(http://www.e.pku.edu.cn)、雅虎中国(http://www.yahoo.com.cn/)、搜狐(http://search.sohu.com)等。其中以Google最为著名,除了提供常见的web检索之外,它还提供包括人物、图片、多媒体、商品检索、翻译以及在线股票等各种服务。Google提供的服务主要有:
图像搜索。能搜索数以亿计的图片,其用户界面简洁、友好,不足之处是“安全搜索”只支持用英语检索。
新闻组搜索。Google链接了全世界所有著名新闻网站,只要输入检索词,Google就会迅速在这些网站里查找;此外,新闻组还提供各种主题讨论区,不足之处是其内容以英文居多。
在线英文字典。只要输入要查找的单词,浏览器就会显示出有关该单词的信息。
页面翻译功能。如果搜索中出现了非英文结果,Google会提供翻译或英文译本的链接,标题后则出现“Translate this page”字样。
网页快照。Google在进行网页搜寻时,会给网页做一份索引快照,并将其储存到服务器中,当用户不想访问检索到的网页,只是想大略浏览其内容或检索到的网页无法访问或已被删除时,“网页快照”可更好地满足用户需求。
购物。该服务可以让用户按类别或产品名称进行搜索,向用户免费提供准确的商品信息,与专门购物网站不同,它只提供用户和企业联系的渠道,本身并不提供商品。
在线答疑。 Google雇用专业人员就用户提出的问题进行解答,比如健康咨询等(该服务是收费的)。
旅游信息查询。用户想了解某地区的天气情况、航班、火车车次等信息,只要输入相关的关键词,就可得到所需信息。此外,Google还提供地图检索、电话本服务等。
因特网信息检索的策略
检索策略是为实现检索目的而制定的执行计划或方案,它对整个检索过程起运筹和指导作用。一般来说,检索策略包括检索课题分析,检索工具、检索方法和检索手段!择,检索标识表达,检索程序优化和检索步骤确定等。其目的是广、快、精、准,省时、省力、省钱地获得所需信息。
课题分析是检索策略的重点。做好了这一步,其余的就容易多了。课题分析的关键是明确目的要求、突出检索重点、分析检索范围、!定语种地域等。
!择适当的检索系统或网站是关键。正确!择检索系统或网站对检索的成功至关重要。首先要熟悉不同检索系统或网站的收录范围、内容、信息可靠性、检索方法、用户界面、检索效率等,然后是结合检索课题特点,尽量!择与信息需求结合紧密、学科专业对口、覆盖信息面广且量大、报道及时、揭示信息内容准确、有一定深度且检索功能完善的检索系统或网站。
检索标识(词、短语、分类号、作者等)的!定是核心。!定检索标识要遵循两个原则:一是提高其切题性,二是提高其匹配性。提高切题性可直接将课题名称中的主要概念作为检索标识,也可从专业、技术、学科的角度对研究内容进行仔细分析,找出确切的主题概念作为检索标识。提高匹配性可使用同义词、近义词和相关词等。
构造恰当的检索提问式是目标。恰当的检索式构造,是建立在良好的课题分析和对!定检索系统或工具的检索软件、所使用的逻辑、位置符号等情况的了解与运用基础上的。在构造检索提问式时,要确定检索标识之间的概念关系和位置关系,准确表达课题需求的内容,灵活使用各种符号;要充分利用所!检索系统或搜索引擎的功能,必要时可借助其“帮助”。
因特网信息检索的技巧
检索技巧主要是研究如何充分利用检索系统和检索工具所提供的各种功能及检索者所掌握的知识和技能,最大可能地提高检索效率。在此要讨论的是如何提高查准率和查全率问题。如何提高查准率呢?
(1)尽量使用相应的专业搜索引擎、传统情报信息网站、图书馆的门户网站等进行检索。
(2)提高检索式的专指度。增加或使用下位词和专指度较高的检索词,用逻辑乘、逻辑非符号将不同的主题概念连接起来等。
(3)尽量利用准确、复合的全部信息(词组、短语甚至句子)去进行检索。
(4)增加概念以进行限制。可用逻辑乘符号连接原概念和增加的相关概念,也可用逻辑非符号限制一些不相关的概念以缩小检索范围。
(5)利用词组或短语。通常是将组成词组或短语的若干词加上双引号进行检索。
(6)尽量使用专业词汇。使用专业性或专指性更强的下位检索词,特别是使用复合词进行检索,可提高查准率。
(7)利用字段检索。可把检索范围缩小到相关字段,如标题、URL、图像等。
(8)利用检索引擎提供的二次检索功能或高级搜索功能。如果利用初级检索命中很多记录的话,可利用二次检索功能或高级搜索功能以使检索结果更加切题。
(9)利用分级检索。所谓分级检索是指首先进行网元(网上检索单元,涉及网页、网上新闻组、网上数据库等)检索,找出有关网址,然后再在有关网址上进行该网址上的传统信息检索。这里的分级检索不同于因特网查询或传统信息检索中的分次检索。分次检索是在第一次检索集合中进行的第二次同一性质的检索,而分级检索则是从网间收缩到单个网址检索。分级检索实际就是到信息应该在的地方去查询信息。如何提高查全率呢?
(1)使用多个检索系统或搜索引擎。研究证明,各搜索引擎数据库的重叠并不大,所以,要提高查全率必须利用找多个搜索引擎进行检索。
(2)利用截词符(后截断、前截断、中间屏蔽)可提高查全率。
(3)利用逻辑“或”运算符将同义词、近义词、相关词等连接起来以提高查全率。
(4)利用检索词的上位词或广义词进行扩检。
(5)尽可能利用检索系统所提供的各种检索途径,如题名、分类、作者、关键词及其他有检索意义的单元等,从不同的检索途径查出更多的相关信息。
(6)分层次进行检索。即先将检索需求分析为不同层次及同一层次的不同方面,然后从这几个层次和方面分别进行检索,再对各层次检出的信息进行分析、综合,找出相关的信息。
(7)充分利用检索系统或搜索引擎的链接功能,以获得更多相关信息。
(8)除显性主题外,还要对隐性主题进行检索,即在对信息需求进行主题分析时,既要注意显性主题概念的表达,又要注意隐性主题概念的提取,特别是当显性主题专指度过高、查全率不理想时,使用隐性主题检索往往能够获得较好效果。
(作者单位:濮阳市图书馆)
编校:杨彩霞