搜索引擎的日志分析:方法、技术和应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:MRMAMING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文试图通过分析"天网"搜索引擎的日志来得到用户访问"天网"系统的一般性规律,并从分析结果出发改造搜索引擎.为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问"天网"系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对cache系统设计了一组实验,希望能验证cache系统的必要性和可行性,并对cache系统的构成、组织进行模拟测试,通过这些工作,我们发现了用户访问"天网"系统的一些规律,发现了用户的查询词序列、点击url序列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现.从实验分析结果出发,论文还报告了对"天网"系统三个方面的改进:新增"位置相关性"模块来提高查询质量;改造Cache系统来提高响应速度;增加自动目录导航服务来引导用户,从而全面提高了天网系统的能力和质量.
其他文献
为应对激烈的市场竞争环境,提高客户服务水平,加强业务管理,国内大企业大部分采用基于数据中心的集中处理模式,数据集中处理有利于业务监控、降低成本和提高效益,但是数据集中处理
本文的研究是以水利部948项目“茨淮新河上桥枢纽信息化工程”为研究背景。该工程的目标是对计算机集成制造系统(CIMS)技术加以改进和创新,建立一个水利CIMS(ContemporaryInte
90年代初,随着Internet的迅速普及,出现了基于Internet的电子商务.它利用Internet的全球性,扩大了交易范围,成本大大降低;采用数据加密、电子认证、安全电子交易等一系列措施
内存管理是大型应用软件的一个重要考虑因素,它的成功与否将直接影响到应用的稳定性和效率。目前对内存管理的研究可分为3个层次,自底而上依次为:操作系统级内存管理、高级语言
该文首先具体分析了XML转换的现状,较深的研究了XML转换的关键技术.然后基于多策略的XML转换方法,设计并实现了一个通用的XML转换原型系统(简称为Doc2XML).系统采用了该文新
当今的时代是信息技术的时代,人们的日常生活、工作越来越依赖计算机的帮助。由于大量的敏感信息需要计算机系统处理、存储和传输,计算机系统的安全问题已经成为人们关注的焦点
现代数字化技术的急遽发展,使得Web成为信息发布、交互及获取的主要工具。面对Web上的海量信息,如何从中自动发现、抽取、过滤有用信息成为迫切需要解决的问题。在科学研究和商
面对软件开发过程中业务需求不断变化,技术日新月异带来的挑战,模型驱动架构(MDA)提供了一种开放式的、不依赖于任何厂家的解决方案.以对象管理组织(Object Management Group
现代软件开发更加注重过程的控制作用。在软件开发中,软件过程把人、工具以及规程和方法集成在一起,生产出高质量的软件产品。对软件过程的支撑技术的有诸多方面的研究。 已
信息溯源是指采用一系列的方法和技术手段将内容、网络行为以及应用行为等追溯到其发起者。一般情况下可以通过数据连接的四元组判断信息的来源或者发起者,但是当信息发送者