基于Maze的内在索引系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xxxx000456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Maze文件共享系统是北京大学网络实验室在2005年发布的一款软件,主要服务于教育网的用户,它是一款基于P2P的软件,同时Maze也是一个很好的研究P2P的平台。用户下载并安装Maze后,可以通过浏览邻居用户的共享目录或者在Maze检索系统当中搜索感兴趣的资源,然后进行下载。Maze在教育网中很受欢迎,曾一度成为教育网内流量最多的软件。虽然Maze已经有很多用户,并且在教育网内得到了广泛的流传,但是它本身还存在着一些问题,其中重要的一个问题是不能给用户提供一个准确实时的资源检索系统,这样用户的搜索体验就不会很好,久而久之用户将不会通过搜索进行下载。据统计,Maze用户的资源下载行为中只有2%的下载是通过搜索进行的[1],这说明Maze的资源检索系统急需改进。  本文首先分析了Maze用户共享目录的变化特点以及之前Maze检索系统所存在的问题,并分析了硬盘索引的特点,得出其不适合于有频繁插入和删除操作的应用,然后提出了内存索引系统,目标是从根本上解决搜索不实时和不准确的问题。在Hash结构的基础上,本文提出了一种新的数据结构Hash+作为内存索引的数据结构。Hash+采用了链表和AVL树来解决Hash中的key的冲突问题,采用了数组链表来存储value,加快查询返回速度。之后详细介绍了采用内存索引的Maze检索系统的设计与实现。同时,设计并实现了内存池和中文快速分词算法来辅助内存索引系统的稳定高效运行。采用内存索引的新的Maze检索系统己经在2011年6月底部署,运行过程中出现的各种问题也都得到了解决,目前已经稳定运行了很长一段时间。实际的运行数据和实验数据都表明新的检索系统具有较高的实时性和准确性,改善了用户使用Maze的体验。
其他文献
本文研究历史网页文档与股票市场行为的相关性,并建立预测模型来深入分析和定量评估网页文档在股票市场预测中的作用和效果。通过中国网络信息博物馆(Web Infomall[1])的历史
计算机科学技术的发展和互联网应用的普及已经将人类社会带入了信息化的时代。信息化时代的到来在给我们的工作、学习和生活带来无限便利的同时也引发了一些问题。这其中“信
云存储是一种新的存储服务模式,运营商通过网络为客户提供存储资源和存储服务,具有安全、可靠、可扩展等特性。单机存储与云存储相比,具有难扩展、数据容易丢失损坏、且难迁
教育科研网统一认证和资源共享基础设施(CARSI)是由北京大学发起的一项跨域认证和授权项目,采用SAML标准,以Shibboleth技术为基础,用来加强高校间的资源共享。目前世界上有31
随着感知技术、普适计算技术、通信技术和智能控制技术的快速发展,智能硬件越来越广泛地应用到社会生活的各个领域。基于智能硬件的互联与互操作,可以构建物联网系统,实现社会空
随着GPS技术的不断完善和发展,基于位置的服务LBS(Location-Based Service)也呈现出多样化的发展趋势,应用领域不断得到扩充,如电子地图系统、旅游信息查询系统、日常兴趣点
威胁软件安全最大的问题就是软件漏洞。由于软件漏洞的存在,大量的计算机病毒、蠕虫或恶意用户都可以利用软件中存在的漏洞进行信息窃取或提升权限等行为,严重威胁了个人乃至国
立体电影的上马,譬如阿凡达的热映,引发了人们对立体电影的竞相追捧。立体电影的原理是利用人双眼的视角差和会聚功能,而产生了三维立体的效果。多视点视频技术,由于是立体电
随着现代服务业的快速发展和企业信息化的逐步推进,企业级应用开发成为了软件平台厂商和软件工程学术界关注的一大焦点。通过对主流的面向对象开发范型的分析可以发现,现有的
作为隐私保护的重要手段,匿名鉴别机制引起了各界的广泛关注,口令鉴别作为应用最广泛的鉴别方式,研究设计仅依赖于口令的匿名鉴别系统具有重要意义。在此背景下,国际标准化组织IS