论文部分内容阅读
随着互联网技术的飞速发展,网络视频的传播范围变得越来越广,网络视频中包含的五花八门的信息,也就不知不觉中影响着人们的认知和观念。因此,对互联网视频流量进行有效识别并控制不良视频的传输就显得格外重要。然而,在互联网视频流量的识别过程中,无论是采集视频流的数据包大小还是其他流层面的数据,其特征的数量都是成百上千的,且这些特征中包含着大量的无关信息和冗余信息影响着识别的效果。而特征选择可以很好的处理无关信息和冗余信息。优化算法是一种非常有效的特征选择算法,它可以对数据的每一维特征都进行评估,然后去除无关信息和冗余信息,选择出对识别分类最有效的信息。但是一般的优化算法无法处理大规模数据且优化过程较长。本文的主要研究目的就是研究一种优化速度快的大规模粒子群优化算法对网络视频流数据进行特征选择,并通过实现对不同类型视频流量数据的识别来验证选择的特征的有效性。主要的研究内容则是通过采集不同类型的互联网视频流数据,研究一种对视频流数据进行快速有效特征选择的大规模优化算法,从而实现对不同类型视频的识别。本文的主要研究点和创新点体现在以下三个方面:(1)不同类型的互联网视频流量数据的采集与原始特征提取由于目前在视频流识别领域没有公开的不同类型视频的互联网流量数据集,因此在本文中使用了用户自行采集的视频流量数据。在本文中,采集了不同类型视频的互联网流量原始数据包;并对原始数据进行了过滤无关流数据包等预处理手段,最后对流数据提取字节编码和包到达时间的统计特征,获取特征数据集。(2)基于粒子群算法的大规模优化算法研究特征选择是一类复杂的组合优化问题,且本文中使用的特征数据集特征规模较大,因此提出了一种收敛速度快全局搜索能力好的大规模全局优化算法。在本文中,提出了适应值差距最大化原则,并基于该原则提出了粒子排序配对学习策略;为了进一步提高算法的性能,提出了有偏向中心学习策略与排序配对学习策略相结合的方法。最后,在CEC2010和CEC2013两个广泛使用的benchmark测试函数集上测试了本文提出的算法的性能,并对算法的排序配对学习策略和有偏向中心学习策略进行了性能分析。(3)基于优化算法的视频流数据的特征选择方法研究基于在本文中提出的大规模全局优化算法,在本文中选取了一个数值型分类器(非平衡数据引力分类模型,IDGC模型)对视频流数据进行特征选择和验证特征的有效性。在特征选择过程中,视频流数据样本的每一维特征都被赋予了一个权重;然后,通过优化算法优化特征权重和训练数据集训练模型的方式来进行特征选择;最后,通过测试数据集进行视频识别来验证特征选择的有效性。