土豆网视频搜索引擎系统的设计与实现

被引量 : 0次 | 上传用户:xinxinzhang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
土豆网是国内最早开展视频分享业务的网站。土豆网经过了几年的发展,目前已经发展成为每天有1亿多次Page View(简称PV)和几万个视频上传的视频网站。在土豆网上,每天都有大量的用户上传视频节目,到目前为止土豆网上已经拥有了2000多万的视频节目。这些节目每天大约被观看8000多万次,用户在观看视频前,最重要的是要能够找到自己想要看的视频,这就不得不依靠网站的视频搜索功能。本论文首先概括和介绍了一些搜索引擎相关的技术,说明了垂直搜索引擎的概念。重点介绍了Lucene这个开源的搜索引擎的开发框架。简单说明了采用Lucene进行索引和搜索的基本过程和相关的API。中文分词是搜索引擎中比较重要的部分,本文分析了正向和逆向的最大匹配分词以及基于统计的分词方法。本文的重点是对视频搜索引擎的架构进行了详细的设计和实现。将整个系统按照模块划分为视频搜索portal、视频搜索查询、视频数据索引三部分。然后对系统进行了分层的架构设计,整个系统总共分为5层,包括:数据库层、索引层、查询层、portal层以及页面缓存层。其中页面缓存层采用开源的Squid服务器进行实现请求处理和缓存的功能,同时采用Squid的sibling的运行模式实现负载均衡。对于核心的索引层、查询层和portal层进行了详细的处理流程的分析和设计。对不同层次之间的通信方式和数据交换格式都进行了专门的设计。在视频搜索引擎的实现方面,本文采用Java进行了主要的功能模块的开发。采用Tomcat作为web容器,memcached作为内存缓存服务器,还有MySQL数据库服务器。在索引和查询的这两个过程中都非常依赖中文分词技术,本文采用了正向最大匹配的分词算法。对于日期、中文数字、繁体字、特殊字符都进行转换,使用自定义的精简的词库进行了中文分词算法的实现。对于视频搜索结果的排序,本文设计和实现了一套使用视频相关的播放次数、上传时间、被评论的次数等多重指标进行综合权重计算的排序算法。最终成功地设计和实现了一套完整的视频搜索引擎系统,为土豆网提供了强大的视频搜索功能,满足了用户搜索视频的需求。经过反复的设计和实践,整个视频搜索引擎系统逐步的稳定和完善,中文分词工具包的质量也达到了比较高的水平,视频排序算法的实现为整个搜索引擎质量的提升起到了非常重要的作用。系统的架构也在实践中得到了检验,在每天几千万的访问情况下,系统能够非常稳定的运行。目前,土豆网每天有1500万次的视频搜索,通过视频搜索功能带给网站1000多万的播放次数。土豆网的视频搜索系统既方便了用户,也为网站带来了可观的点击次数和播放量。
其他文献
人本管理理论是企业面对全球化市场竞争,提高自身核心竞争力的重要管理理论。学界对企业人本管理理论在概念界定上虽有一定分歧,但也有很多共识。在此基础上,本文对人本管理
课堂教学是教育的重要组成部分,而做好课堂教学的幼小衔接工作是实现教育衔接的一个重要方面,不但能使幼儿更快的接受新的教学阶段的学习内容,进一步适应和完成难度更高的学
学习动机作为英语学习中最重要,最复杂的学习者心理因素和个体差异之一,是学生学习的内在动力,直接决定着个体学习者参与学习活动的积极性、自觉性、持久性以及努力程度,进而
2010年是中国股市上比较重要的一年,股指期货的推出,改变了中国股市单边市场的历史格局。同时机构投资者的发展壮大和市场的不断规范化,使得价值投资策略在中国股市的应用成
课堂评价结果的处理是一个教师和学生非常熟悉的实践领域,也是一个充满挑战的专业领域。说它熟悉,是因为它每天都在发生着;说它具有挑战,是因为它需要完备的专业技术。课堂评
为了实时获得微型飞行器着陆时与着陆平台的相对位置关系,本文提出了一种基于微型飞行器机载视觉的目标识别与状态估计方法。该方法利用曲面拟合方法获得着陆平台图像边缘的
体育产业作为一门新兴产业,是市场经济发展的必然结果。本文通过对我国体育产业发展现状的研究,客观地揭示了我国体育产业发展的特点。同时,针对我国体育产业在经营意识、管
植物园是一个国家和地区社会、经济、科学、文化发展水平的体现,是从事植物研究、收集、保存和保护的主要机构。在植物资源的保护、评价和持续利用方面起到主导作用,在开发利
主观幸福感是近年来积极心理学的重要研究内容,当今在金融危机的影响下,研究大学生主观幸福感及其与影响因素的关系具有非常重要的意义。本研究采取问卷调查法和个案研究法,
在当代作家中,汪曾祺是独特而令人难忘的。他早熟晚成,小说创作发韧于上世纪40年代,崭露头角之初便出手不凡,时被誉为“京派现代主义的集大成者”。此后创作时断时续,至80年