深网的概念、规模及内容

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:shlchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  通常,人们查询网络信息时最先想到的,是在某一搜索引擎中输入待查询内容的一个或几个关键词,然后在命中记录中选取自己需要的信息。如果命中记录数为零,人们通常会使用更多的关键词,或者使用同义词、近义词来深化检索。若仍没有结果,人们可能就会认为所需信息在网上并不存在,继而放弃查询。但事实可能并非如此。人们所需的信息在网上可能是大量存在的,只是传统的搜索引擎无法或者没有索引这些信息而已。记录这些信息的网页就是通常所指的深网,或称隐形网、隐蔽网。
  
  一、深网的概念
  
  国外对深网的研究只有10年左右的时间。1994年,Jill Ellsworth博士首次提出隐形网的概念,但没有引起重视。直到2000年以后,才又有相关的研究论文及成果发表,并迅速引发了热烈的讨论。到目前为止,学界对深网的概念还没有达成共识。研究者一方面很容易理解它为什么存在,另一方面又很难用专业的术语准确地定义,因而大多从深网是什么、为什么存在及其重要性和检索途径、方法等角度来描述深网。对深网概念的研究主要有以下两个切入角度。
  1.从搜索引擎的角度
  深网最早是以其“隐形”特征引起研究者注意的。隐形不是说这些信息内容无法被检索利用,而是指无法被传统的搜索引擎检出。对于习惯使用这类搜索引擎的信息用户而言,它们是隐形的。Chris Sherman和Gary Price将“隐形网”定义为:“在互联网上可获得的但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质最的全文信息。”Michael Dahn持有类似的观点,认为:“隐形网由可检索的但内容不能被传统搜索引擎索引的信息资源组成。这些信息资源包括数据库、档案资料和交互式工具如计算器、字典。由于这些信息资源被嵌入在成千上万的个人Web站点,因此对于目前的搜索引擎来说是不可见的。”
  国内的研究者也大多倾向于从这个角度来认识深网。有的学者称之为“看不见的网站”,有的称之为“隐形网络”,还有的称之为“隐性信息”、“隐蔽网络”。无论是“看不见”,还是“隐形”、“隐性”、“隐蔽”,都是相对于搜索引擎而言的。
  2.从信息内容的角度
  2000年,BrightPlanet公司首创了“深网”术语,用来表述那些将信息内容存贮在检索数据库中而仅仅响应直接查询提问的网站。由此可以看出,“深网”与“隐形网”表述的是同一个概念。许多研究者将这两个术语作为同义词同时使用,但是这二者之间还是有着微妙的区别。
  “深网”隐含着对信息内容结构的揭示。与“深网”相对应的概念是“表面网”,它包括的内容基本上都是非结构化的HTML信息,而深网包括的内容大多数为结构化的数据库信息,因此,“深”在这里就有了结构层次更丰富的意味。同时,“深网”更多地考虑了信息用户和信息服务的因素。“深”还意味着用户获取所需信息的难度更大,需要使用更多的精力和更精致的检索策略,因而需要更细致更深入的信息服务。
  “隐形网”则是以搜索引擎为中心,把搜索引擎作为获取网络信息的惟一途径。但事实上搜索引擎只是获取信息的一种方式。网络信息就像图书馆一样,不同类型的信息以不同的方式存储和检索。从信息服务的实践看,多年来信息用户就一直是通过数据库获取信息。许多用户已经非常熟悉并能熟练地通过图书馆的CD-ROM光盘数据库或者基于网络的研究型数据库来满足自己的信息需求,已经习惯去利用图书馆馆藏数据库的在线目录信息。再有,“隐形网”术语本身存在一个悖论:“网上搜索引擎搜索的内容也是存储在数据库中,且只有在用户查询时才能提供。我们是不是也应该把搜索引擎收录的信息看成隐形的?我们将某种仅可通过用户查询才能获取的东西视作隐形的(隐形网),因为它不能从另外一种仅可通过用户查询才能获取的东西(搜索引擎)获取,这种逻辑站不住脚。”
  因此,“深网”这个术语相对而言更准确,更能反映网络信息资源开发与利用的方向。
  
  二.深网的规模
  
  BrightPlanet.com网站白皮书的作者Bergman曾形容当今的因特网信息检索就好像是在信息海洋的表面撒下一张网,可以搜索到部分内容,但仍有大量有价值的信息在信息海洋的深处未能找到。BrightPlanet公司根据2000年3月13日至30日搜集的数据,对深网的规模和相关性进行了研究,结果显示:深网中的公共信息是表面网的400~550倍;深网的容量有7500TB,而表面网只有19TB;深网有近5500亿个独立文件,而表面网只有10亿;目前存在的深网网站已经突破20万个;60个最大的深网网站共包含750TB的信息,比表面网信息的40倍还多;深网的月流量通常比表面网要多出50%,并且更容易被链接;深网是Internet上增长最快的新信息类型:在内容上,深网网站比传统的表面网站要更专、更深;深网内容的全部价值是表面网的1000至2000倍;深网的信息内容与所有的信息需求、市场和领域高度相关;一半以上的深网内容存贮在专题数据库中;95%的深网信息可以公共获取而无需付费或订阅。
  这份研究报告的有关数据被广泛引用,但也有人提出质疑。Chdis Sherman就声称BrightPlanet公司测量深网规模的技术存在缺陷,深网可能只有表面网的2~50倍。尽管如此,我们还是可以肯定;深网的规模远远大于表面网,并且将持续性地高速增长。社会信息化的时代背景和搜索引擎的成本考虑是支持这个判断的主要根据。
  一方面,社会信息化的潮流裹挟着各大学和公共图书馆、公司和政府机构等社会信息机构,这些机构拥有的海量信息都将逐步数字化,并通过数据库系统和网络信息发布平台实现网络资源共享。这些数据库中的信息正在呈指数增长,构成了深网中增长最快、增长量最大的部分,而且文档质量好、信息价值高。同时,网站制作技术的普及促使个人网站繁星般兴起,而相当多的个人网站作者有意从技术上排斥搜索引擎,如使用密码保护网页、使用Robots协议阻止搜索引擎Spi-der程序访问网页等。
  另一方面,为了节约成本,搜索引擎通常只对因特网上的少数网页进行采样,选用一些普通信息用户需求比较集中的网页进行标引,而不会进行“深度搜索”来标引每个网页,搜索深度差。同时,相对于更新速度非常快的网页而言,搜索引擎使用的Spider程序每天能够访问的网页数量非常有限,搜索频率低。因此,大量的信息被埋入网络中难以被挖掘利用。
  深网规模越来越大,并且包含的信息内容质量好、价值高,这些都吸引了信息供应商和信息服务商越来越强烈的关注。各大搜索引擎要想巩固甚至强化在搜索市场的地位,就必须重视深网,发展搜索技术,提高竞争力。各大搜索引擎公司的新一轮角逐已经进入深网领域。2004年2月底,Google声称该公司的搜索数据库收录了60亿个页面,并有望成为全球最大的信息资源库。一周以后,Yahoo!网站介绍了其最新的“内容获取项目”,该项目试图通过接触大约100亿到1000亿个“深网”页面,提升Yahoo!索引项的全面性,借此夺回其在上世纪90年代末期一直占据的网上搜索市场的霸主地位。可以肯定,将有越来越多的目前属于深网的内容进入信息用户的视野。但是,无论技术如何发展,受信息生产规模扩大、网页信息更新频率加快、新的文件格式出现等因素的影响,深网将一直存在,并将越来越“深”。2004年7月,美国伊利诺伊大学计算机科学系Bin He等人发表的一份调研报告指出:“深网已有大约30.7万个站点、45万个数据库和125.8万个界面,并且一直在快速增长,2000年到2004年期间增长了3~7倍。”Chris Sherman和GaryPrice也认为深网的增长速度可能已经超过通用检索工具功能的提高速度。“即使我们所描述的所有未来发展方向都能实现,看不见的网站仍将是网络空间中很大的一部分。信息增长的速度如此之快,以至于没有任何通用检索工具能有效地检索网上所有的信息资源。”
  
  三.深网的内容
  
  深网的内容随着信息技术的发展和社会观念的演变不断变化。许多昨天还属于深网的信息今天已经可以在网络上轻松获取。根据目前深网形成的不同原因,我们可以将其内容归纳成以下几种:
  1.未被链接的网页。根据搜索引擎原理,若没有任何其他网页链接指向某一网页,搜索引擎的Spider程序就不能沿着其他网页中的URL爬行到该网页,也就不能将该网页的相关信息搜集到索引库,那么通过搜索引擎就无法找到这些未被链接的孤岛网页。未被链接的网页是深网最基本的组成部分。可以采取两种方法让未被链接的网页逃逸出深网,成为易于被搜索到的表面网中的内容.一是在被链接的网页中添加未被链接网页的链接,使得Spider程序能够发现这一链接,并索引该网页;二是网页设计者向搜索引擎提交网址,使得该网页能够被搜索引擎索引。
  2.动态生成的网页。当搜索引擎的Spider程序遇到大量由cgi、asp、javaseript等专门制作动态网页的脚本语言所编写的网页或者URL中包含“?”的动态网页时,一般会很慎重地考虑是否索引该网页。从技术层面来说,这些动态生成的网页是可以被搜索引擎索引的。但是,有些不道德的程序員试图编写恶意程序“诱骗”搜索引擎来索引,并由此导致Spider程序进入死循环。因此,如果不是值得足够信赖的网站,搜索引擎为了避免“机器人陷阱”都会拒绝索引这些动态生成的网页。
  3.网上可检索的数据库。网上可检索的数据库中绝大部分都是结构化的数据。这些数据“隐藏”在网络检索界面后端,存储在Access、Oracle、SQLServer、DB2等数据库系统中。当需要检索数据时,必须使用本网站的搜索工具进行直接查询,在交互式检索窗体中输入检索提问式或选择检索选项,数据库响应请求后,将相应的检索结果按一定的排序规则显示在网页上。网上可检索的数据库可以分为两种类型 可自由获取的公共数据库和需订阅或者付费的数据库。由于搜索引擎的Spider程序尚不具备在交互式检索窗体中填写或选择所需字段信息的能力,无法向数据库提交检索提问式。同时,对于一些必须使用用户名和密码登录的需注册或者付费的网站中的数据库来说,搜索引擎的Spider程序同样没有足够的智能注册后登录系统。因此,无论是哪种类型的数据库,搜索引擎都无法获取其中的数据。有价值的网络信息一般都存储在数据库中。网上可检索的数据库是深网最大的组成部分,也是深网信息规模大、质量高的最主要原因。
  4.实时数据。针对信息用户对股票、天气、航班等即时信息的强烈需求,许多网站提供动态更新的实时数据服务。实时数据信息量大、更新频繁、时效性强。从技术上来说,实时数据大部分是可以被搜索引擎索引。但由于每个搜索引擎的搜索程序都按一定周期抓取更新的网页,而目前大部分搜索引擎数据库的更新周期是20天左右,难以跟上实时数据的更新速度。搜索引擎要保持与实时数据同步更新,并抓取所有密度高、数量大的实时信息,需要耗费大量的资源。此外,实时数据时效性强,对一般用户来说,失去时效后几乎没有搜索价值。因此,大多数搜索引擎都放弃索引实时数据。
  5.部分非HTML格式文件。搜索引擎曾一度只能搜索HTML格式,所有非HTML格式的网页内容都被深藏在信息海洋的海底。随着技术的发展,搜索引擎已经开始涉足非HTML格式领域的信息挖掘。Coogle是第一个开始处理非HTML格式网页内容的传统搜索引擎。2001年初,Google开始索引PDF文件。Google的发言人宣称:“能够被Google索引的新的文件类型将包括:Word、Excel、PowerPoint、Rich Text Format和PostScript文件。”而AlhheWeb除可以索引PDF和WoM文件外,还可以索引Flash文件。虽然还有些搜索引擎也能够索引Word、PDF、Flash文件,但是仍有许多搜索引擎不能索引非HTML格式文件,或者对这些格式文件的大小等方面进行限制。此外,考虑到技术和经济等因素,搜索引擎目前对可执行程序、压缩文件、流媒体等类型的文件仍然未予索引。因此,虽然部分非HTML格式文件已渐渐浮出了表面,但是仍有大量非HTML格式文件埋在深网中。
  6.需要密码或注册的网站。目前许多网站需要注册并使用用户名和密码登录后才能访问,另外,有些网页需要密码或会员权限才能访问。而搜索引擎无法获取密码自动完成“输入内容”。因此,这些站点或网页中的内容难以被搜索引擎索引。也有部分网站的所有者为了商业等方面利益,通过协议赋予搜索引擎相应权限搜索部分或者全部内容,但当检索者点击查看该网页时,仍然需要提供相应的权限验证,使用用户名和密码登录后才能访问。目前,大部分需要密码或注册的网页通过搜索引擎仍然搜索不到。
  7.其他难以搜索的内容。有些网站出于版权和隐私等方面的考虑,会使用“Robots.txt”协议或者其他方式拒绝Spider程序访问。搜索引擎搜索任何信息都需消耗资源,而搜索深层的信息和占用大量空间的网页需要耗费更多的资源。从节约成本角度考虑,大多数搜索引擎对Spider程序的爬行深度和网页的大小都进行了限制,对于过深或者过大的网页不予索引。此外,有些违反法律、社会道德或者政府出于某些因素的考虑而屏蔽掉的网页,也不能通过搜索引擎搜索或者访问。
其他文献
采用X-射线衍射仪、扫描电镜、透射电镜、表面轮廓分析仪及磨损试验机等,分析研究了氧乙炔火焰喷焊镍基自熔性合金(NiO_2)粉末涂层的组织及其相结构、硬质相的形貌及分布、涂层的
本文借助于图论建立了n自由度行星变速箱的数学模型,然后用计算机来完成各档的效率和传动比、各构件的力矩和转速、离合器的传递力矩和滑转转速、制动器的制动力矩和行星轮的
为了使油气水三相分离器的压力、液面、油水界面稳定,必须采用连续自动控制。为此研究了一套完整、简单、适用的3个自控方法。 1.气相压力自控此系选择比较简单且定型的自力
本发明的详细说明:本发明是为改善冷却效果,减少噪声,提高吸气效率,而对无油空气压缩机进行的改进。作为无油压缩机,通常有曲轴箱内有润滑和曲轴箱内完全没有润滑两种方式。
1983年10月,我们代表石油部赴加拿大努发公司接受“管道腐蚀检测”的培训任务。在培训期间,接触到了EPS公司生产的“几何形状检测清管器”,在这里介绍这种检测清管器的结构
根据国际橡胶研究会(IRSG)的最新统计数据,2006年世界生胶总消耗量为2157.3万吨,比去年增加2.7%。世界生胶消耗量增加的原因是以中国为中心的亚洲地区的生胶消耗量增长。特别
去年岁末,听到大年同志不幸病逝的消息,我几乎不相信自己的耳朵。仅仅在几个月前,在当年7月9日举行的庆祝中国史学会成立50周年的会上,还同大年同志一起交谈照相,并聆听了带有他一贯特色的讲话。谁想到这具有欢庆色彩的瞬问,竟成为同大年同志的永诀。
一、圆环链及其用途圆环链根据用途分为:锚链、起重链、牵引链、木筏链、通用链和特种链(高精度链和高强度链)。锚链用于船只抛锚停泊、码头停泊及拖曳船只。它包括下列零部
在现代中国思想史上,像伟勋那样具有丰厚学养的并不多见。但使他博通古今中外的真正原因,应是他对知识的追求。对问题的探索,有永无止境的欲望,这种欲望,越到晚年也越强,这也是很少
如果没有塑料城,余姚的城市名片可能是浙江最好的杨梅产地,而不是塑料城。虽然还没到季节,余姚满街叫卖的杨梅仍然吸引了记者的目光。 If there is no plastic city, Yuyao