面向网络流的APP文件在线识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:youjian_youjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的发展,越来越多的人使用手机上网。手机APP成为网络服务的主要入口,APP的商业价值得到广告机构的重点关注。对广告主来说,APP下载次数是决定他们最后一次报价的关键因素。因此,统计APP下载次数至关重要。但是由于各种第三方市场的存在,从官方APP市场很难获得真实的统计数据。针对这种情况,本文提出一种直接从网络流量中识别APP安装包文件的方法,直接从流量中进行统计。  识别方法主要包括三个主要算法,APP标识生成算法、APP语义自动映射算法和APP标识匹配算法。当APP安装包在网络中传输时,首先使用APP标识生成算法算出这个APP的标识。然后使用匹配算法去已有的样本库里面查询,如果找到了,就能直接获取它的名称,识别成功。如果发现这个APP是一个未知的APP,那么就通过APP语义自动映射算法对该安装包进行解压缩,反编译获得它的名称,版本号等语义信息,并将这些语义信息和标识进行映射,得到一个映射关系。最后通过匹配算法将这个映射关系加入到样本库中。平均情况下,该方法能达到96.44%的精确率和97.63%的召回率。  本文主要创新包含以下三点:  1)在APP标识生成算法中,针对传统的模糊哈希算法不能处理在线的网络数据流的问题,提出了可以处理在线数据流的APP标识生成算法。该算法使用区间索引将每一个网络层分片计算出的中间结果保存下来,最后将结果进行拼接输出。并且在实现过程中针对算法的时间和空间占用等性能做了相应优化,使用红黑树实现底层的区间索引,并且用基于伽罗华域的矩阵乘法代替了原有的强哈希算法,最后在顺序和随机乱序情况下算出的标识能够保持一致,在单核单线程下速度能达到46MB/s;  2)在APP语义自动映射算法中,集成了Android和iOS两种平台的反编译工具,实现了APP语义的自动映射。在算法中,对于Android使用ApkTool作为反编译工具,处理速度可以达到10毫秒~100毫秒/个。而对于iOS使用的是github上的开源库libplist库,处理速度可以达到5毫秒~30毫秒/个。整个算法每秒可以处理大约10~100个APP,可以实现大规模数据量情况下的语义自动映射;  3)在APP标识匹配中,使用n-gram建立索引,并且针对传统的n-gram索引在数据量大的情况下,查询速度明显降低的问题,进行了改进。在算法中采用了剪枝的方法进行性能优化,当链表的长度超过L的时候,对链表进行剪枝,将链表中的节点一个一个删除。但是为了避免将同一个标识的节点都删除了,会保留剩余gram数量小于K的节点。剪枝后,100万数据量下,查询速度达到10万次/s。
其他文献
从七十年代以来,伴随着AI技术的深入研究,智能化CAI的研究逐渐兴起并得以蓬勃发展,取得了一系列可喜的成绩。然而,国内外各种比较成功的ICAI系统都普遍集中在数学、化学等科目,都
该文论述了一个在Linux操作系统上实现的加密文件系统Crypt-FS.我们借鉴了前人在相关领域的工作,在分析和研究了Linux文件系统的实现原理的基础上,完成了加密文件系统设计和
目前,计算机行业的嵌入式技术已经比较成熟,并且形成了一系列嵌入式应用产品.像手机、PDA(如商务通等)均属于手持的嵌入式产品,VCD机、机顶盒等也属于嵌入式产品,而像车载GPS
本论文讨论的是基于组件技术的开放式数控系统软件的研究。主要工作是基于开放式系统的思想,总结出传统数控的特点,探索基于组件的开放式数控系统软件的结构。 开放式控制系
本项目针对公路运输管理部门的现有特点,充分了解其工作性质及流程需求,采用微软的.NET设计思想,开发出联网综合作业系统,满足汽车运输管理所需要的各种功能,包括移动通讯、数据交
随着设计活动日益向国际化方向发展,企业的合作伙伴甚至同一企业的各个部门往往在地域上非常分散,这给设计过程中设计人员间的交流造成了障碍。三维模型是设计人员之间交流的一
近几年,社交网络已成为人们获取消息的重要途径。人们可以在社交网络上发布简短的消息,其粉丝们可以转发或者评论这些消息,促使消息广泛传播。正是因为其快捷性,受到了全世界人们
该文在详细介绍网格概念和网格体系结构的基础上,主要研究内容包括校园网络异构并行计算系统中的集合通信和任务调度策略的设计与实现,同时对网络异构并行计算系统的处理器选
本文主要讨论了基于Linux的嵌入式系统的研究与开发。文章首先对嵌入式系统进行了简单介绍,在详细分析了系统特点的基础上,结合Linux自身的优点,提出了基于Linux的嵌入式操作系
数字医疗成像设备已经成为现代医疗中不可缺少的诊断器械.如何保证这些数字医疗成像设备所采集的图象可以被有效的管理、保存、使用和清晰的再现,成为现代数字医疗界面临的关