论文部分内容阅读
随着互联网技术的发展以及海量数据管理需求的日益增加,对等网技术在网络应用领域起到了越来越重要的作用。如何发布数据以及如何对分布在网络中各个节点上的数据进行基于语义的高效搜索,逐渐成为了一个重要的研究方向。在这种趋势下,本着对基于对等网语义搜索技术实例化研究的目的,本文设计并实现了Mariana系统。
Mariana系统基于DHT分布式路由技术,实现了在对等网之上文档信息的发布存储功能,并构建了P2P网络上的语义搜索引擎,使用户可以透明地从P2P网络中获取信息,实现基于语义的信息搜索和查找。
本文详细介绍了Mariana系统的设计原理及实现过程,分析了设计实现过程中所遇到的问题,总结了期间的经验;并结合对等网语义搜索技术的理论基础,对如何实现对等网内容语义搜索系统进行了深入地研究。
文章的研究重点包括以下几个方面:
一、如何在对等网上建立基于语义的信息管理系统。
研究了当前主流的全分布式结构化对等网技术,着重分析了DHT网络在精确匹配查询和内容语义检索之间的矛盾。进而提出了基于关键词语义扩展查询技术的搜索方案。
二、如何利用文本语义抽取技术实现语义网络的构建。
利用基于朴素贝叶斯模型的中文关键词抽取方法所生成的关键词,动态构建语义节点关系图,进而生成具有语义搜索能力的关键词语义网络。
三、如何利用已构建的语义网络,设计搜索算法,从而达到基于语义搜索的目标。
在方面二的基础上,基于关键词的“重要度”,关键词之间的“关联度”以及文档与关键词之间的“匹配度”,提出了对对等网中信息进行语义搜索的一系列排序算法。