论文部分内容阅读
随着互联网技术的飞速发展,网络已经成为网民信息分享和交流的公共平台。视频作为声音、图像和文字等信息的载体,成为广大网络用户喜爱的交流媒介。随着网络视频的海量增长,如何对海量网络视频数据进行自动分类成为了研究的热点,同时它也是极具挑战性的前沿课题。网络视频分类是网络视频搜索中一项非常重要的任务。在本文中,我们结合模型驱动和数据驱动的方法,探索从新的角度对网络视频进行分类。新的分类模型从两个方面对分类性能进行了提高:一方面通过用户视频和相关视频的文本扩展,提高文本分类器的性能。基于模型的分类器使用视频标题和标签作为文本特征,我们将相关视频和用户视频作为扩展信息来补偿文本特征存在语义描述不足和噪声问题。用伪相关反馈来改善文本特征的分类性能。另一方面,我们结合模型驱动和数据驱动的结果。我们提取用户兴趣和相关视频信息,采用多数投票的方法结合支持向量机的分类结果来提高网络视频分类。我们结合文本分类提取的语义信息、相关视频中得到的视频相关性和用户视频中获取的用户兴趣信息,来获取最终的视频分类结果。从语义信息、视频相关度和用户兴趣信息的结合进一步的提高了网络视频分类性能。通过对YouTube的网络视频进行分类实验证明我们的方法分类性能优于传统基于文本的分类方法。在对网络视频进行分类的过程中,需要对大数据文件进行处理。我们采用当前广泛应用的Hadoop分布式处理平台来解决海量分类数据的预处理问题。Hadoop是目前云计算研究的关键技术,已经在Yahoo、Facebook等互联网公司有着运用。本文研究和分析了Hadoop分布式处理平台,在Hadoop平台上实现了海量分类数据的预处理。我们研究Hadoop的并行过程和数据接口;定义和实现基于图像处理的数据接口;对比了分布式平台和普通单机对海量图片处理的实验结果,最后分析了文件分片大小对时间效率的影响。