基于Google的大规模搜索引擎的架构和设计技术

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:suzengbiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一个大规模搜索引擎的改进框架,充分利用了超文本的结构,这个结构设计用来有效的爬行和索引网页.产生比现行系统更加满意的搜索结果.这个结构有一个至少拥有2400万页的全文超链接库,这个库可以在http://google .stanford.edu/中得到.该文讨论了一个大规模搜索引擎的设计和实现,并且简要的描述了一些关键性技术,象中文分词技术、网络排序技术、图形链接技术、大规模网页索引技术、网络存储技术等,最后该文构造了一个改进型的大规模搜索引擎框架.该文除了把传统的搜索引擎技术扩展到适应于大规模的数据出现的问题外,还提出了一些新的技术问题,以便使用超文本附加信息,生成更好的搜索结果.
其他文献
数据采集系统是数字信号处理的核心部件之一。在雷达信号处理、数字图像处理、虚拟仪器和软件无线电等领域中,数据采集都得到了广泛的应用。本文讨论的“基于PCI总线和DSP的数
软件测试作为软件质量保障的重要手段,在整个软件开发过程中占有非常突出的重要位置.大量统计数据表明,软件测试工作量往往占软件开发总工作量的40﹪以上.只有将软件测试贯穿到
该课题在深入学习、研究数据仓库和OLAP技术基本原理和开发方法的同时,具体规划,设计了以省邮政局为主体的邮政企业财务分析系统.系统在目前各级邮政企业统一使用的会计核算
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗集理论凭借其独特的优势而在数据挖掘领域中具有越来越重要的地位。本文在对粗集及其相关理论
该博士论文中,在分析了传统操作系统构造数据存储模型的各种问题,以及在参考了相关技术和系统的基础上,提出了一种新型的操作系统体系结构模型:我们称之为虚拟地址空间基于文
随着计算机技术、通信技术和信息技术的不断发展,各个行业已逐渐认识到了利用这些高新技术来实现高速采集、处理数据、自动化生产和精简工作任务的巨大潜力。GPS技术作为一种
随着网络通信技术的飞速发展,信息安全是网络应用不可回避的问题,密码学是解决这个问题的根本方法.许多软硬件开发商,为了保证自己产品的安全,开发了基于复杂且种类繁多的加
该文将应用于MIS环境下的基于Web的工作流管理系统进行研究.该文首先分析了解MIS中引入工作流技术的必要性,简要介绍了工作流管理的主要内容、优点及其与Web技术和面向对象技
随着企业信息化在实现国民经济和社会信息化中的基础地位的提高,以及对实时系统研究的不断深入,实时系统的应用也越来越广泛。将实时系统引入到控制网络通信中来改变了原有控制
随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了