网络信息检索的工具

来源 :商场现代化 | 被引量 : 0次 | 上传用户:wwjms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 搜索引擎是人们使用Internet信息资源的重要工具。本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的方向。
  [关键词] 信息检索 中文搜索引擎 存在的问题 发展方向
  
  随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和方法。
  一、搜索引擎的概念和及类型
  搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。
  目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。
  1.目录式搜索引擎。目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这种类型。
  2.机器人搜索引擎。这是一种目前运用较广泛的搜索引擎。国内以百度,google、天网为代表。它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。
  机器人搜索引擎具有庞大的全文索引数据库。其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。
  3.元搜索引擎。元搜索引擎是一种调用其他搜索引擎的引擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索。中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目前有一定影响的中文元搜索引擎。
  二、现阶段中文搜索引擎存在的主要问题
  1.信息覆盖面有限。现阶段搜索引擎所覆盖的数据库的规模是非常有限的,据美国科学期刊Natures一篇报告中称,全球最大的搜索引擎也只能覆盖现有网页的16%。中文搜索引擎因起步慢、中文信息所占互联网全部信息的比例小(只占全部网络信息的5%)等原因在这方面尤为突出。
  2.查全率不高。查全率是指检索出的相关信息量与存储在检索系统中的全部相关信息量的百分比,是判断检索系统质量的度量之一。
  国内绝大多数的网站组织的信息大多都是通过浏览方式获得内容。即使是经过精心组织、编排非常合理的网站,也会有70%~80%的网页不能被搜索引擎检索到。中文目录式搜索引擎因需人工介入、维护量大,在这方面表现较明显。
  3.查准率较低。查准率更是判断检索系统质量的重要尺度。是指系统所检索到的真正与查询内容相关的文档占检索出的所有文档数的百分比。
  造成查准率低的原因是,部分搜索引擎的分类体系与科学知识体系之间缺乏内在联系;类目之间逻辑关系模糊,导致检索路径与搜索引擎类目错位;信息加工深度不够;检索功能单一;检索词的专指性较差;大部分的检索结果是题录式而非全文式,其内容简单等等。机器人搜索引擎的分类和索引缺乏人工的参与,其查准率不如目录式搜索引擎,且检索结果中还含有大量的重复、虚假的信息。
  4.专业性的搜索引擎发展迟缓。专业性的搜索引擎是为专门收录某一行业,某一主题的信息而建立,能够提供专题信息查询服务的搜索引擎。目前中文搜索引擎大多是综合性的,能同时收录各行业、各学科的多种信息,但在反映某一行业或某一专题的信息方面很难做到全面、精确,不能给用户提供特定的信息服务。这就使得专业人员,特别是某一领域的学者、专家不愿意利用中文搜索引擎去查询资料。
  5.检索功能方面存在缺陷。一是检索中符合布尔逻辑运算符的搜索引擎极为有限;二是关键词检索输出的结果相关度排序方式杂乱,不能根据用户需要来选择信息输出的方式;三是多数的搜索引擎是面向主题搜索不是面向用户搜索,不能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务;四是检索网站的主页不规范,有些太简,有些又太繁,而且广告内容太多,无法进行有效检索。
  三、中文搜索引擎的发展方向
  1.提高查全率。首先是需要开发分布式的系统。这种系统可以把各个接点当作是新的信息资源,扩大数据库的规模,正在兴起的元搜索引擎属于这种系统,它在接受了用户的查询命令后,可同时用多个搜索引擎进行查询;二是把专业数据库资源纳入自己的检索范围。除了Web信息资源外,网上还有大量的非Web信息资源,如联机检索系统、光盘检索系統、专业数据库系统。如中文搜索引擎能把这些Web和非Web资源结合起来使用,即使有的只能查到题录、文摘等内容,也大大扩展了检索范围,能为用户提供较全面的检索需求。
  2.提高查准率。需解决以下几个难关:首先需提高搜索引擎的信息过滤功能。在对网络信息进行集中的搜集之后,搜索引擎还需对这些信息进行鉴别和过滤,即剔除大量的无用信息,而把有效的信息提炼出来并加以聚集;第二则是需对专家过滤后的信息进行一定的检索标引,并给予相关的标识符号,如关键词、分类号、主题词等各种标识,其关键是利用智能检索技术,提高准确性;把检索的结果存储在相应的数据库中,并由URL与Internet建立链接供用户使用;还需注意信息定期更新,以保证信息的新颖性和链接的可靠性。
  3.建立垂直化专业领域的搜索引擎。网络用户所从事的职业千差万别,不同的用户对信息搜索往往有不同的要求。综合性的搜索引擎收录的范围太广、太大无法满足某一特定的需求。垂直化专业搜索引擎则可解决这一难题。它只面向某一特定的领域,专注于自己的特长和核心技术,能保证对该领域的信息的收录齐全与更新迅速。在提供专业信息方面有着大型综合搜索引擎无法比拟的优势,所采用的技术都是些较成熟的技术。
  中文垂直化专业搜索引擎的发展已取得了一定的成功,如新浪的新闻搜索,博客搜索、雅虎的个性化旅行路线搜索、百度的MP3搜索、Google的学术搜索,航班搜索等都为用户提供了较好的搜索功能,为今后的继续发展奠定了基础。
  4.搜索引擎的智能化发展。智能搜索引擎是未来搜索引擎的发展趋势。可以通过自然语言与用户交互,最大限度地了解用户的需求。智能检索一是表现在搜索引擎技术的智能化,研究重点放在自然语言处理技术和人工智能技术的研究上;另一表现是体现在搜索引擎面向检索者的智能化,它致力于通过分析检索者的检索和浏览行为来学习检索者的需求,利用搜索引擎现有的服务有选择地为检索者提供个性化的服务。
  5.加强搜索引擎的检索功能。首先需强化全文检索功能。利用Robot实现对站点页面文字内容的全面检索技术。比起目录检索,全文检索提供了全新的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源,全面、准确、快速是衡量全文检索系统的关键指标;同时改善用户检索界面,设计简洁、明白的界面引导用户进入检索状态;更方便、实用的检索技巧的利用,中文搜索引擎需简化和统一语法规则,如布尔逻辑检索符号的利用:空格或“*”代替“与”、“+”代替“或”、“-”代替“非”,规范语法符号,节省用户的检索时间;还需研发查询图像、声音、图片和电影的搜索引擎。
  6.完善元搜索引擎。元搜索引擎弥补了独立搜索引擎不全的特点,提高了检索的全面性。现开发出的中文元搜索引擎的数目很少,还有诸多缺陷,需在各方面进一步改进。
  元搜索引擎要对各独立的信息特色进行较细致的调查,以确定自己要收录的范围;在对目标搜索引擎的组织中突出独立搜索引擎的检索特色,并设计各搜索引擎之间的检索方式的转换算法,提高用户检索行为的针对性;建立更为灵活的,面向用户的信息检索服务。检索界面要统一和友好,检索方法的设置要提供给用户更多的自由空间,使用户可以按照自己的意愿合理的组织检索式;在检索结果的显示中要开发出一个有效的检索结果去重、选择、排序和优化算法,这是中文搜索引擎开发中的一个重点和难点。
  参考文献:
  [1]孙建军 成 颖:信息检索技术[M].北京:科学出版社,2004
  [2]王 丰:国内中文搜索引擎研究[J].网络通讯与安全,2007,(8)
其他文献
[摘 要] 本文在分析Excel XML表格文件格式的基础上,论述了利用XML、PHP技术将Excel工作表数据导入到网站数据库的实现方法,并给出实例。  [关键词] Excel 电子商务网站 PHP     一、引言  在互联网络高速发展的今天,众多企业纷纷建立了各自的电子商务网站。本文论述了利用PHP、XML技术在网站中导入Excel数据的实现方法。  二、相关技术简介  1.XML技术。XM
期刊
[摘 要] 广告是当代商业文化中的一个重要组成部分。本文试从广告语入手挖掘所包含的文化内涵,分析中美文化的内核及其差异,以写出好的、贴切的、成功的跨文化广告语。  [关键词] 中美文化 文化 广告语    一、引言   在商品跨国流通过程中,为了更好地宣传产品,广告的作用尤为重要。而广告语的选择又与文化有着很深的根源,所以,对中美文化内核的了解有助于我们更好地选择贴切的广告语。本文拟从广告语入手寻
期刊
[摘 要] 指出了传统库存策略在供应链环境下暴露的弊端,分析了VMI策略提出的背景及条件,介绍了VMI策略的两个典型的应用层面,最后指出了实施VMI策略的必备条件。  [关键词] VMI策略 供应链 应用层面 必备条件    一、传统库存策略在供应链环境下暴露的弊端  传统库存控制策略虽然在企业管理中发挥了重要作用,但它是从本企业自身的角度进行库存成本最低的优化管理,每个企业都独自运行,只负责自己
期刊
[摘 要] 针对传统信息检索搜索时间慢、空间占用量大的问题,提出了一种基于奇异值分解和欧氏距离算法的信息检索算法。该算法降低了信息检索时间复杂度和空间复杂度,实验证明了该算法的有效性。  [关键词] 信息检索 奇异值分解 欧氏距离 Salton向量空间模型    随着因特网上信息资源种类及数量不断扩大,研究高效的信息检索方法成了一个非常重要的课题。信息检索就是借助一定的设备与工具,采用一系列方法与
期刊
[摘要] 企业IT管理对于提高企业管理质量,增强市场竞争力起着十分重要的作用。本文从分析企业IT管理面临的挑战入手,提出了促进企业IT管理的几个基本对策,旨在抛砖引玉,共同探讨信息化建设的有效途径。  [关键词] 企业 IT 管理    企业IT管理对于提高企业管理质量,减少交易成本,增强市场竞争力,拓宽生存发展空间等起着十分重要的作用。可以说,IT管理大大缩小了企业与企业之间在信息获取、规模经济
期刊
[摘 要] 本文在对石油销售企业推行ERP系统的现实需求分析的基础上,对中国石油西北销售分公司ERP系统建设过程进行了介绍,并总结了建设过程中的成功经验和建设后取得的初步成效,为其他相关或类似企业建立ERP系统提供了较高的参考价值。  [关键词] 销售 ERP系统 信息化 持续改进    一、石油销售企业推行ERP系统的现实需求  ERP是Enterprise Resource Planning的
期刊
[摘 要] 采用通过文献资料、逻辑分析等方法,通过对赞助企业的品牌特征分析以及企业奥运营销表现出品牌依附性特征的分析,在此基础上,进一步阐述了2008年北京奥运会赞助企业如何提升自身的品牌价值的策略。  [关键词] 北京奥运会 企业 品牌 价值    一、赞助企业的品牌特征分析   品牌被财务专家视为无形资产,而它的真实价值是无法在企业的财务报表上反映出来的。一个商标确认的是一种产品、一种服务或一
期刊
[摘 要] 本文通过从多方博弈的角度分析“格力股份制区域销售公司”和“幸福树”一成一败的经典例子,发掘渠道建设中利益多方达到均衡需遵循的准则,并指出家电厂商要从观念改变、品牌建设和不断创新合作模式等方面去努力。  [关键词] 自建渠道 多头博弈 博弈均衡    随着国美、苏宁等“渠道霸权”的形成,大卖场创造了名目繁多的索取供货厂家额外利益的手段,商家为了降低对大卖场的依赖,纷纷自建渠道来寻找可控的
期刊
[摘 要] 基于BtoC模式的在线零售业给网络购物提供了极大的便利。本文分析了在线零售业的优势与劣势,归纳了在线零售业面临的挑战。认为在线零售对传统零售的取代已成为必然趋势。  [关键词] 在线零售 BtoC 现状    随着我国网络基础设施建设的加强,我国网民人数的激增,越来越多的商业领域开始电子化了,电子商务时代的到来改变了我们的生活和工作方式。目前中国在线零售活动交易的主要商品是书籍、计算机
期刊
[摘 要] 创新分为组合创新与技术创新。组合创新包括引入新产品、进入新市场、采用新方法,其中新产品是主体,新市场是载体,新方法是途径。组合创新主要是对主体即产品的创新。本文从存活、成长到成熟、繁殖的生命周期路径分析说明:商业银行产品创新的前提是柔性链接,方式是替代对接,途径是互补搭接。  [关键词] 商业银行 产品创新 创新管理    创新,innovation,即肯定之否定与否定之肯定。经济学的
期刊