基于文本分析的互联网视频搜索引擎技术研究

被引量 : 0次 | 上传用户:glei66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,互联网上的信息不仅在数量上以几何级的速度增长,在形式上也变得多种多样。多媒体信息正在逐步的取代传统的文本信息,成为人们上网了解信息的第一选择。传统的搜索引擎专注于文字的搜索,对视频、图片等多媒体信息搜索的支持远远满足不了人们的需求。针对这种情况,本文设计了一种专门针对于互联网视频的搜索引擎,该搜索引擎通过分析挖掘视频的标题,评论等相关文本信息能较精确的搜索到视频信息,并通过分析用户日志提供个性化搜索。本文首先介绍了网络爬虫的实现原理及运行过程。该网络爬虫针对视频网站爬取视频相关文本信息,并将相关信息保存到本地。由于具有采集速度快,范围广的特点,使其能较好的满足用户对搜索引擎查找速度快,搜索范围广的要求。接下来,本文介绍通过对已有视频文本信息的分析挖掘而非对视频本身的分析来间接获取视频内容信息。介绍了中文分词的主流算法,并比较了这些方法的优缺点,并详细实现了正向最大匹配算法,为之后句子间相似度匹配算法提供了较好的分词效果。接着介绍对爬虫爬取到的视频评论进行过滤的方法,将情感评论,垃圾评论等对分析视频内容无关的评论过滤掉。采用计算相对词频来分析文本信息进而判断视频的内容。然后,详细介绍了根据用户日志判断用户查询意图的方法。首先介绍了用户日志挖掘的过程,详细描述了怎样对用户日志进行处理,并以Sogou用户日志为例进行处理,获得了满足后续分析的数据。提出一种基于句子相似度计算判断用户查询意图的方法,该方法根据用户日志判断查询词与哪类视频的相关度最大来确定用户的查询意图。最后,分别用实验验证了网络爬虫的爬取效果,垃圾评论过滤,句子相似度匹配算法的正确性和可行性,并将这些功能有机的结合在一起实现了一个面向互联网视频的个性化搜索引擎系统。
其他文献
自Brown&Levinson(1978/1987),Leech(1983)的礼貌理论问世以来,礼貌研究成为语用学和社会语言学界关注的焦点之一,礼貌理论也成为语用学的一个重要组成部分,有关礼貌的书籍和论文数以
书法是线条艺术,是以笔墨的韵味来表达艺术的一种形式.人们欣赏一件优秀的书法作品时,无疑会得到美的享受,艺术的陶醉.书法艺术与其他艺术如文学艺术、音乐艺术、绘画艺术相
孔子学院是中国当前文化“走出去”战略的重大项目,也是汉语国际推广的龙头产品。随着各国孔子学院汉语教学的蓬勃发展如何选取一套有针对性的、适合孔子学院自身特点的、能满
步进电机具有可开环控制、无累积误差、精确定位等特性,在自动化控制领域起着举足轻重的作用。在仪用精密定位系统中,步进电机愈加显示出其优异特性。随着国民经济的发展,多步进
本文是关于影响词汇附带习得效率的因素的研究。一方面,是关于学生的词汇学习/习得方式所进行的研究;另一方面,是关于四种投入方式/任务类型对词汇附带习得效率的影响所进行的研
合作学习在教学过程中占有重要地位,尤其是在新课改不断深入的当前背景之下,合作学习之于现代教学尤其有其特殊意义。在小学英语教学过程中,积极运用合作学习促进教学活动的广泛
传统的虚拟人物动作仿真通常采用三种方法:手工驱动、模型驱动和数据驱动。然而这三种方法随着人们对仿真实时性、动画质量、动作复杂度、低成本等要求的提高,逐渐显现出各自的
近年来快速发展的物流行业竞争日益加剧,传统仓储货运业务利润受到极大的挤压,物流企业为寻求新的利润增长点,不断创新增值服务,在传统物流服务基础上延伸出以货物抵质押为基
在pH 7 6~ 7 8和低离子强度条件下 ,中性红 (NR)与DNA作用产生以 53 5 0nm和 3 50 0nm为特征的共振光散射增强 (ERLS)光谱 .研究表明 ,在最佳条件下 ,在 53 5 0nm处的共振光
由于较少受到第四纪冰川的直接侵袭,加之复杂的地形,优越的气候条件,重庆地区保存了大量古老孑遗植物.据统计调查,该地区有国家级珍稀濒危植物66种,隶属38科60属.其中蕨类植