互联网视频元数据爬取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xuxiaoxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“三网融合”的推进,智能电视蓬勃发展,电视应用服务愈加丰富多样,给人们的生活带来了巨大的改变。随着“互联网+”概念的提出,应用软件、云计算、大数据技术的加快应用,电视智能化水平将得到快速提升。智能电视应用服务于人们的生活,以人为本的理念将成为智能电视未来发展重要方向。媒体娱乐、养老关怀、电子商务、文化教育、健康医疗、安防控制等接入家庭,使电视真正成为家庭互联网入口。  三网融合在推进的过程中,互联网业务提供商利用电信和广电运营商,直接在多种终端上向用户提供以互联网电视(Over The Top TV,OTT TV)为代表的海量、新颖、优质的视频业务,OTT TV突破了传统的业务与网络相捆绑的模式,激发了电视和互联网的潜能,极大地满足了用户的需求。用户在享受OTT服务的同时对消息实时性以及对视频节目质量选择等提出更高的要求,对互联网视频进行实时的采集与集成已成为研究重点。  本文重点研究互联网视频元数据爬取的关键技术,主要包括在线学习的视频内容的主题相关度预测,基于联合链接的隧道穿越以及WEB信息抽取的交叉定位等,主要贡献和创新点如下:  1、针对用户对OTT TV视频要求的新鲜度、时效性、相关性、完整性等需求,提出了一种在线学习、预测视频内容与主题相关度的方案,设计了一种基于密度分布的单类支持向量机的主题爬取的算法,使爬虫在爬取过程中可以在线学习,具有良好的自适应性。  2、针对预测页面中子链接的主题相似度时,网络社区之间存在灰色隧道的问题,提出了一种基于联合链接的隧道穿越的算法。该算法将视频与主题的相关度划分为主题完全相关、主题临界相关、主题完全无关三个区间,将主题临界相关的页面从视觉上进行页面切割,利用父链接与块链接以及锚链文本的相似度,并结合Q反馈学习获取的累积收益,对页面中链接的相似度进行相关度预测,指导爬虫爬取的方向,在不明显降低精确度的同时,提高爬取的查全率。  3、针对Web页面具有动态异构性的特点,包装器在抽取网站视频元数据信息的过程中抽取精度差、耗时长以及鲁棒性差等问题,提出一种基于交叉定位的视频元数据信息抽取的方法,该算法建立了基于内部特征的坐标系,采用了自底向上归纳的方法交叉定位视频元数据坐标值,提高抽取信息的准确率和鲁棒性,降低抽取的时长。
其他文献
学位
本文系甘肃省“十三五”规划课题GS[2016]GHB1551《“少教多学”理念下高中语文课堂教学策略研究》阶段性成果  摘要:本文阐述了“少教多学” 教学理念的内涵和课堂教学中的价值,探究如何从作文教学的评价策略方面体现“少教多学”理念,以提高作文教学质量。  关键词:“少教多学”; 作文教学;评价策略  一、问题的提出  当前,课程改革在课堂教学层面遭遇到的最大挑战就是无效和低效问题。课堂教学改
本文提出一种基于相似实例的网页模式自动发现方法。具体工作包括:提出了基于相关实例的异构网页提取模式自动发现方法:利用异构网页之间内容的相似性以及网页和全局模式的对应
分布式天线技术的特点是天线分布在空间各处,它可以得到更好的物理信道,以满足无线通信对信道特性的苛刻要求。在分布式天线系统中,由于供选择的天线数目一般很多,所以天线的选择
学位
一、引言自适应噪声抵消技术是一种能够很好的消除背景噪声影响的信号处理技术,应用自适应噪声抵消技术,可在未知外界干扰源特征,传递途径不断变化,背景噪声和被测对象声波相似的
实时荧光定量PCR是一种用途极为广泛的生物基因检测新技术,能够简单快速地对核酸进行量化,完成对基因表达、突变分析、疾病状态和基因数量的研究。它是在PCR反应扩增到限制反应
通常通过建立合适的地声模型来研究海底声学特性,实际海底沉积环境复杂且区域环境相差明显,不可能由任何单一的地声模型来确定,但是在较广的区域内外推一个一般化的模型用于描述
精子体外获能的顺利进行是体外受精研究以及胚胎移植的基础,对体外获能的深入研究是胚胎工程以及繁殖技术研究所必要的,具有深远意义。本实验采用上游法分离优化精子,用mTyrod’
随着电子技术、网络技术和软件技术的高速发展,个人数字处理设备PDA中集成的硬件功能越来越强大,可用的软件越来越丰富,如今它已被越来越多的用到医疗、探矿等所需便携式电子器