论文部分内容阅读
网络快速发展的同时,网络的安全问题也愈发严重,对用户的隐私以及财产方面都造成了巨大的威胁,给用户的上网行为带来诸多不便。WEB网站指纹分析能够根据用户访问产生的流量而识别出用户所访问的网站,从而对用户的上网行为进行监督和保护,能够为构建一个文明、健康的网络环境打下基础。目前的WEB网站指纹识别的研究,对于不同来性的网站进行识别的研究还较少,且对于加密流量的指纹识别的研究的准确率也有待提高。所以,为了解决目前WEB网站指纹分析技术存在的问题,本文对不同网站类型和加密网站的流量特征以及特征的选择方法进行研究。首先,针对当前对于不同类型的网站指纹识别的研究较少,没有较为合适的特征及特征选择方法对不同类型的网站进行指纹识别的问题,提出了一种基于反馈的明文WEB网站特征指纹识别技术。通过研究不同类型网站之间的流量特征,在特征选择中应用聚类分析简化特征集,提出了结合聚类分析的特征选择模型。通过与使用原始特征、基于SFFS和SBFS算法选出的特征的指纹识别对比准确率、召回率、精确率与建模时间等指标,验证了所提出的结合聚类分析的特征选择模型能够在基本维持WEB网站指纹识别准确率的同时,提高识别的效率。其次,针对加密WEB流量能够提取的特征较少,加密WEB网站指纹识别的准确率有待提高的问题,提出了基于自动特征工程的加密WEB网站指纹特征选择技术。通过研究加密WEB网站流量与明文WEB网站流量的特征之间的区别,引入自动特征工程,结合PCA算法,提出了自动特征工程和PCA算法相结合的指纹识别模型。最后通过实验分析了训练数据集的数量对网站指纹识别效果的影响,并验证了自动特征工程和PCA算法相结合的指纹识别模型的准确率。