论文部分内容阅读
近年来,随着移动互联网的发展与壮大,智能手机也得到迅速的发展。目前Android系统占据了全球手机操作系统市场份额的一大部分且仍有不断上升的趋势,与此同时,Android也成为了恶意软件泛滥的主要平台。Android恶意软件的恶意行为多种多样,给用户甚至整个社会都带来了巨大的危害和经济损失。因此,如何将Android恶意软件快速高效的分析并检测出来已经成为目前的研究热点。首先对Android平台进行归纳总结,分析了Android的系统架构和应用程序组件,然后对使用到的机器学习算法以及Spark并行环境框架进行分析,为后续研究打下基础。然后,针对随机森林算法的投票原则无法区分强分类器与弱分类器差异的缺陷进行改进,提出一种加权投票改进方法,并在此基础上提出了一种用于检测Android恶意软件的改进随机森林分类模型(Improved Random Forest Classification Model,IRFCM)。IRFCM选取AndroidManifest.xml文件中的Permission信息和Intent信息作为特征属性,并通过特征选择算法进行优化生成特征向量集合,最后应用该模型对最终生成的特征向量集合进行分类检测,实验结果表明IRFCM具有较好的分类精度和分类效率。最后,针对大数据环境下应用程序安装包反编译过程耗时长和特征提取慢的问题,将IRFCM与Spark框架相结合,设计实现并行环境下的Android恶意软件检测。将样本数据转换为Spark框架下的弹性分布式数据集(Resilient Distributed Dataset,RDD),并在虚拟机集群环境中并行地对RDD进行特征提取和分类检测,并行环境下的实验结果与单机环境相比,有效提高了Android恶意软件的检测效率。