基于DHT网络的多媒体搜索引擎研究与实现

被引量 : 2次 | 上传用户：chinajswgh

【摘要】

：

随着信息技术和互联网不断发展,人们逐渐从信息匮乏时代走进了信息过载的时代,对于信息的生产者,让自己的信息从海量的信息中脱颖而出,受到广大用户的关注是一件困难的事情；对

【作者】

：

陈华

【发表日期】

：

2015年01期

【关键词】

：

DHT网络多媒体搜索引擎 Kademlia算法全文检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术和互联网不断发展,人们逐渐从信息匮乏时代走进了信息过载的时代,对于信息的生产者,让自己的信息从海量的信息中脱颖而出,受到广大用户的关注是一件困难的事情；对于信息的消费者,从大量的内容中发现自己感兴趣的信息也是一件比较困难的事情。利用搜索引擎,人们可以在网络中定位到自己需要的内容,因此搜索引擎的优劣直接影响用户查询的结果。传统的搜索引擎往往能够非常准确的发现相关网页,但在面对多媒体搜索时则面临着一系列局限性。这是由于网页的形式较为单一,包含图片、视频等多媒体内容的比例较低,不能满足实际的需要。因此研究高效的多媒体搜索引擎不仅能够实现全面、准确、快速的检索多媒体文件,而且对于提高搜索引擎的准确率具有重要的意义。与此同时,上千万个节点在DHT (Distributed Hash Table)网络中分享着海量的多媒体文件,如果设计一定机制获取这部分内容,势必会极大丰富多媒体搜索引擎的数据来源。然而DHT网络的一些客观条件增加了获取多媒体文件的难度,首先不存在全局的节点索引提供查询功能,其次随时都有大量的节点加入与退出网络,最后受限于服务器的网络带宽,DHT爬虫要尽可能的节省资源。本文在上述背景下做了以下几点研究工作：(1)深入研究DHT网络协议及Kademlia算法,在此基础之上提出了一种基于路由注入的DHT网络爬虫方法。爬虫主要在这个网络依赖各节点之间的通信关系,被动式地收集节点之间分享的多媒体文件信息。而收集多媒体文件的效率主要由爬虫遍历DHT网络节点的速度及在对方路由表中的留存率决定,正是本文DHT网络爬虫方法重点优化的指标。试验结果显示该方法的效率优势明显,为实现多媒体搜索引擎打下良好的基础。(2)在DHT网络爬虫获得多媒体文件Hash基础上,分析BitTorrent Metadata传输协议,从DHT网络获得描述多媒体文件的种子,并研究种子文件的结构以及解码算法,进而提取出多媒体文件的相关属性。有了基本属性之后,本文继续总结归纳,推断出多媒体文件的文件类型,以及利用贝叶斯算法为视频类型的多媒体文件按画质分类。(3)研究全文检索机制,包含建立索引、检索索引的流程,并结合本文多媒体搜索引擎的特点,在关键步骤进行优化,提高效率。参考搜索引擎的用户交互界面,最终设计并完成了基于DHT网络的多媒体搜索引擎,并在实践中获得了成功应用。由于本文专注于多媒体文件的抓取与检索,因此在该领域相比传统搜索引擎的搜索准确率更高,是搜索引擎未来的一个发展方向。在以上研究工作基础之上,本文最终实现基于DHT网络的多媒体搜索引擎,对用户数据分析后发现,多媒体搜索具有非常大的发展潜力。

其他文献

智能电网中信息系统项目安全风险控制研究

在我国建设智能电网的背景下,信息系统项目建设的数量越来越多,规模越来越大,技术含量越来越高,安全风险也愈加突出。信息系统项目通常在复杂的环境下进行,充满着很多不确定

学位

智能电网信息系统安全风险风险管理

大唐国际陡河发电厂No.4机组协调控制系统分析与改造设计

现代电力领域要求发电机组具有较快的功率响应和一定的调频能力,近些年又提出了两个细则的考核标准,这都对单元机组的自动化控制水平提出了越来越高的要求。协调控制系统作为

学位

协调控制直接能量平衡主控系统RB功能设计优化

时间同步方式及同步偏差对同步相量量测的影响研究

同步相量测量单元(Phasor Measurement Unit, PMU)已成为目前电力系统动态过程监测的基础手段。由于PMU的本质特征是同步量测,因而高精度、可靠、安全的时间同步信息对PMU的

学位

北斗二代卫星导航系统IEC 61588时间同步偏差同步相量测量单元离散傅里叶变换

慈溪电力营销管理体系研究

电力作为我国国民经济的基础行业,在社会主义市场经济发展中发挥着举足轻重的作用。随着我国电力行业体制改革的深入推进、国家新能源战略的推广实施、“节能减排”、“特高

学位

供电公司电力市场营销策略SWOT分析

从拟物化与扁平化之争看GUI(图形用户界面)设计的发展趋势

内容提要：进入新世纪,伴随着计算机及网络技术的快速发展,人类信息获取和传递的媒介已经快速从纸介出版物转向数字终端。GUI图形用户界面设计是伴随产生并发展的视觉传达设计

学位

GUI(图形用户界面)多点触控拟物化设计扁平化设计

浅谈大斜度井(水平井)井筒积液分析方法

积液分析是产水气井合理选择工作制度、确定排水采气工艺措施的理论基础和有效手段,但由于在大斜度井(水平井)中垂直管流和水平流动并存,积液分析难度大。结合大斜度井(水平

会议

气井临界携液流量积液分析计算模型持液率

导弹尾焰红外辐射运动变化探测研究

针对导弹尾焰红外辐射的探测问题,分析了导弹的运动状态对尾焰红外辐射探测的影响,建立了导弹尾焰红外辐射探测模型。主要研究了直线、水平圆弧及爬升和下滑的运动状态的探测

期刊

导弹尾焰红外辐射运动状态探测模型

针灸对急性期Bells面瘫疗效的影响:随机对照研究

目的:探讨急性期针灸治疗是否对Bell s面瘫预后产生不良影响以及最佳针灸治疗方案。方法:采用临床随机对照(RCT)的研究设计方案,将患者分为早期针灸组(A组)、早期针刺配合远

期刊

面神经麻痹/针灸疗法急性病

从语用等效的角度看法汉隐喻的翻译策略

隐喻是一种普遍的语言认知现象。法语和汉语都存在着丰富的隐喻。本研究以语用等效翻译理论为依据,通过若干例证的剖析,提出了法汉隐喻翻译的语用策略,以期再现源语隐喻的语

期刊

语用等效语用失误隐喻翻译策略

高稳定性SBS改性沥青的工业生产

介绍了聚合物改性道路沥青工业生产中原料基质沥青、改性剂、相容剂和稳定剂的选用,SBS被选作改性剂,其用量为3%～6%。讨论了生产工艺、设备对产品质量的影响。在生产能力100 k

期刊

改性沥青稳定性工业规模

基于DHT网络的多媒体搜索引擎研究与实现

其他学术论文