论文部分内容阅读
随着信息技术和互联网不断发展,人们逐渐从信息匮乏时代走进了信息过载的时代,对于信息的生产者,让自己的信息从海量的信息中脱颖而出,受到广大用户的关注是一件困难的事情;对于信息的消费者,从大量的内容中发现自己感兴趣的信息也是一件比较困难的事情。利用搜索引擎,人们可以在网络中定位到自己需要的内容,因此搜索引擎的优劣直接影响用户查询的结果。传统的搜索引擎往往能够非常准确的发现相关网页,但在面对多媒体搜索时则面临着一系列局限性。这是由于网页的形式较为单一,包含图片、视频等多媒体内容的比例较低,不能满足实际的需要。因此研究高效的多媒体搜索引擎不仅能够实现全面、准确、快速的检索多媒体文件,而且对于提高搜索引擎的准确率具有重要的意义。与此同时,上千万个节点在DHT (Distributed Hash Table)网络中分享着海量的多媒体文件,如果设计一定机制获取这部分内容,势必会极大丰富多媒体搜索引擎的数据来源。然而DHT网络的一些客观条件增加了获取多媒体文件的难度,首先不存在全局的节点索引提供查询功能,其次随时都有大量的节点加入与退出网络,最后受限于服务器的网络带宽,DHT爬虫要尽可能的节省资源。本文在上述背景下做了以下几点研究工作:(1)深入研究DHT网络协议及Kademlia算法,在此基础之上提出了一种基于路由注入的DHT网络爬虫方法。爬虫主要在这个网络依赖各节点之间的通信关系,被动式地收集节点之间分享的多媒体文件信息。而收集多媒体文件的效率主要由爬虫遍历DHT网络节点的速度及在对方路由表中的留存率决定,正是本文DHT网络爬虫方法重点优化的指标。试验结果显示该方法的效率优势明显,为实现多媒体搜索引擎打下良好的基础。(2)在DHT网络爬虫获得多媒体文件Hash基础上,分析BitTorrent Metadata传输协议,从DHT网络获得描述多媒体文件的种子,并研究种子文件的结构以及解码算法,进而提取出多媒体文件的相关属性。有了基本属性之后,本文继续总结归纳,推断出多媒体文件的文件类型,以及利用贝叶斯算法为视频类型的多媒体文件按画质分类。(3)研究全文检索机制,包含建立索引、检索索引的流程,并结合本文多媒体搜索引擎的特点,在关键步骤进行优化,提高效率。参考搜索引擎的用户交互界面,最终设计并完成了基于DHT网络的多媒体搜索引擎,并在实践中获得了成功应用。由于本文专注于多媒体文件的抓取与检索,因此在该领域相比传统搜索引擎的搜索准确率更高,是搜索引擎未来的一个发展方向。在以上研究工作基础之上,本文最终实现基于DHT网络的多媒体搜索引擎,对用户数据分析后发现,多媒体搜索具有非常大的发展潜力。