论文部分内容阅读
随着YouTube、优酷、土豆等互联网视频网站的迅猛发展,互联网视频数量呈爆炸式增长。面对海量的互联网视频,如何从这些海量视频中准确、便捷地找到所需视频,如何高效使用这些网络视频面临着巨大的挑战。尽管目前通用搜索引擎做了很多研究工作,但是单纯为了追求检索内容覆盖率,为用户提供的搜索结果往往是不划分主题、内容广泛的信息,仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率与时效性等方面都还存在诸多不足,在面向主题的互联网视频搜索领域,传统搜索引擎依然面临巨大的技术挑战。
近年来,面向主题搜索的研究工作得到人们越来越多的关注。通过对主题相关的数据内容的有针对性的收集与分析,面向特定主题搜索可以更高效地呈现结构更清晰的数据结果。其应用范围十分广阔,而视频内容在互联网发展中所占比重越来越大,针对互联网视频领域的面向主题搜索必将有更大的研究价值与意义。
通过结合COCITATION算法的思想,本文提出了针对互联网视频信息的面向主题采集方法,并通过基于链接窗口的方法对其进行了改进。运用信息抽取的基本思想提出了基于极大并列子树族的相关链接集合概念以及生成算法并引入窗口变量,使得互联网视频信息抽取方法能够将页面结构信息、已采集链接的主题相关性以及互联网拓扑结构信息三类信息有机的结合,从而进一步提高了面向主题的互联网视频信息抽取方法的主题采集精确性。
本文提出了一种面向互联网视频的复杂命名实体抽取模型。复杂命名实体的识别不仅能够形成一种重要的数据资源,给互联网视频的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。但是其识别工作尚未得到充分的研究。本文将复杂中文命名实体研究引入到互联网视频搜索领域,对面向主题的互联网视频搜索有着非常重要的贡献。
本文设计了一种支持大规模主题搜索的可适应分布式框架。通过充分挖掘利用互联网社区中的搜索日志,设计了基于Map-Reduce计算框架的可并行处理大规模Web文档的可适应分布式框架。
通过本文实验分析表明,本文中所提出的方法、模型对于面向主题视频搜索有着明显的改进作用,对于改进用户体验、提高视频信息抽取效率有着显著效果。