面向主题互联网视频搜索引擎关键技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:rifcumtd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着YouTube、优酷、土豆等互联网视频网站的迅猛发展,互联网视频数量呈爆炸式增长。面对海量的互联网视频,如何从这些海量视频中准确、便捷地找到所需视频,如何高效使用这些网络视频面临着巨大的挑战。尽管目前通用搜索引擎做了很多研究工作,但是单纯为了追求检索内容覆盖率,为用户提供的搜索结果往往是不划分主题、内容广泛的信息,仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率与时效性等方面都还存在诸多不足,在面向主题的互联网视频搜索领域,传统搜索引擎依然面临巨大的技术挑战。   近年来,面向主题搜索的研究工作得到人们越来越多的关注。通过对主题相关的数据内容的有针对性的收集与分析,面向特定主题搜索可以更高效地呈现结构更清晰的数据结果。其应用范围十分广阔,而视频内容在互联网发展中所占比重越来越大,针对互联网视频领域的面向主题搜索必将有更大的研究价值与意义。   通过结合COCITATION算法的思想,本文提出了针对互联网视频信息的面向主题采集方法,并通过基于链接窗口的方法对其进行了改进。运用信息抽取的基本思想提出了基于极大并列子树族的相关链接集合概念以及生成算法并引入窗口变量,使得互联网视频信息抽取方法能够将页面结构信息、已采集链接的主题相关性以及互联网拓扑结构信息三类信息有机的结合,从而进一步提高了面向主题的互联网视频信息抽取方法的主题采集精确性。   本文提出了一种面向互联网视频的复杂命名实体抽取模型。复杂命名实体的识别不仅能够形成一种重要的数据资源,给互联网视频的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。但是其识别工作尚未得到充分的研究。本文将复杂中文命名实体研究引入到互联网视频搜索领域,对面向主题的互联网视频搜索有着非常重要的贡献。   本文设计了一种支持大规模主题搜索的可适应分布式框架。通过充分挖掘利用互联网社区中的搜索日志,设计了基于Map-Reduce计算框架的可并行处理大规模Web文档的可适应分布式框架。   通过本文实验分析表明,本文中所提出的方法、模型对于面向主题视频搜索有着明显的改进作用,对于改进用户体验、提高视频信息抽取效率有着显著效果。  
其他文献
随着网络技术的不断发展,越来越多的企业使用工作流技术来提高企业的运行效率,目前工作流技术已经成为流程定义和管理的核心技术,具有广阔的发展空间。工作流管理系统是完成
邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,人们在处理邮件上花费的人力和财力就越来越
一个可训练的语音合成系统(TTS,TextToSpeech)可以合成高质量的语音,来满足一些一般的应用需求。然而,在一些变化比较多的应用中,我们希望能够定制更多个性化的声音。所以如
学位
近年来,我国食品安全领域多次出现问题,严重危害社会的发展和广大人民群众的利益。随着人们对食品安全问题越来越关注,消费者迫切需要有一个食品安全保障体系,能使食品生产和
学位
建立高效完备的智能交通系统,以及运营商和交通监管部门的有效配合和良性互动,才有可能疏缓日益严重的城市交通流量。随着城市汽车数量的快速增加,交通堵塞已经成了城市交通
Ad Hoc网络是一种不依赖于固定设施的、自组织的无线网络,其具有的组网灵活,易于移动和部署,抗毁能力强等特点使之日益成为无线通信研究的热点。分簇是提高网络可扩展性的重要手
VPN是一种利用开放的公共网络建立私有专用网络的技术,它利用加密和认证/鉴别技术使VPN用户像使用专线一样在公共网络中安全地传输私有信息,目前已经广泛应用到各个领域。VPN
随着互联网发展和普及,“检索”已经成为人们生活中的一部分。互联网已经把全世界连在了一起,如何从浩瀚的信息海洋中找到自己想要的东西呢,答案就是“检索”。在众多检索系
近年来,网络信息安全与防护已经成为一个不容忽视的问题,保护网络信息安全也是国家信息化所要面临的主要问题。在某些特别的环境下,通过各种手段使用非常规的专用未知协议进
学位