多标签分类方法研究及其在恶意软件检测中的应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zhaihoufu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签分类的目的是为一个实例分配多个与之相关的类别标签,其在数据挖掘和机器学习领域是重要的一个学科分支并有着广泛的应用和研究。同传统的二分类问题相比,多标签分类问题主要的挑战在于标签相关性的利用和高维特征的约简。针对这两方面的研究有很多,但是现有的大多数算法仅仅解决了其中一个问题。为此,本文提出两个改进算法,在进行特征选择的同时考虑标签相关性,最后将研究成果应用于安卓恶意应用检测中。具体的工作包括:1.针对二分类转换算法未考虑标签相关性和存在特征冗余的问题,提出基于标签相关性和特征选择的多标签二分转换算法FLBR。该算法先使用基于信息增益的特征选择方法为每个标签筛选与其相关的特征属性,而后采用新的控制结构考虑标签相关性,最后使用新的特征集合为每个标签训练二分类器。在9个基准数据集上的实验结果表明,该算法在5种评价指标上的总体表现均优于其它典型的BR改进算法。2.针对多标签懒惰学习算法未考虑标签相关性和存在特征冗余的问题,提出基于特征选择和标签相关性的多标签懒惰学习算法FLMLKNN。该算法首先使用Relief F的特征选择方法筛选每个标签的相关属性,然后使用新的方法在多标签懒惰学习算法中引入标签相关性,最后通过最大化后验概率来决定每个标签的输出时仅使用相关特征计算近邻实例同时考虑其它标签对结果的影响。在7个基准数据集上的实验结果表明,该算法在4种评价指标下的总体表现均优于其它常用的多标签算法。3.将以上研究成果应用于安卓恶意应用检测,以识别恶意软件的多种恶意行为。首先提取安卓软件的3种静态特征提取特征向量,然后使用定义的恶意行为标签进行数据集的标注工作,最后在构建好的恶意软件多标签数据集上应用上述两个算法,实验结果表明FLBR和FLMLKNN的Micro-averaging F1分别可达95.1%和95.07%,总体性能优于其它对比算法。
其他文献
多模态视网膜成像可以为视网膜疾病的解读与评估提供多方位的信息,将不同模态图像提供的互补信息进行多模态融合可以辅助临床医生进行病情诊断及评估。本文利用图像处理和分析的方法来对视网膜病变图像进行多模态融合,主要包括以下研究内容:(1)提出一种基于频域光学相干断层成像技术(SD-OCT)和相干光断层扫描血管成像(OCTA)体数据的脉络膜新生血管(CNV)多模态融合算法,算法主要包括以下四个部分:预处理、
随着我国智慧城市、智慧交通等项目的持续开展,智能视频监控得到了越来越多的关注。智能视频监控主要包括对人或物的识别、运动轨迹跟踪以及个体状态或场景状态分析等任务。多目标跟踪算法为流量统计、异常行为检测等任务提供基础数据,是智能视频监控中的关键算法。因此,本文提出了基于深度哈希特征的多目标跟踪算法。此外,针对无人机道路监控场景,本文提出了基于多目标跟踪的异常行为检测算法,同时开发了一套无人机道路监控系
微光相机电子学性能评测系统用于评估微光相机的综合性能。随着微光相机技术的发展,用户对微光相机的性能提出了各种各样新的需求,完整、准确地评测微光相机的整体性能变得至关重要。然而,目前被国内外广泛认可的相机评测标准都是针对适光相机制定的,这些评测标准并不完全适用于微光相机。为了解决这个问题,本文提出了一套基于相机输出图像的微光相机成像电子学评测方法,并在此基础上搭建了一套可以高效操作的评测系统。通过微
如今,通过脑成像技术研究精神类疾病诊断受到了越来越多的关注。基于功能磁共振成像(fMRI)数据对大脑功能连通性相互作用的探索和对大脑功能连接的动态性分割对于精神类疾病的研究至关重要。由于注意力缺陷/多动障碍(ADHD)是一种影响数百万儿童的慢性疾病,而且难以诊断,因此在疾病诊断的准确率方面仍有很大的改进空间。本文分别在分类算法研究和脑动态网络稀疏性建模方面有所改进,用以提升ADHD患者儿童和正常儿
随着互联网的发展,文本数据的激增,自然语言处理领域得到了良好的发展。在自然语言处理领域中,自动文本摘要生成技术是一个重要的研究方向,该技术能够大大缩减人工摘要形成的时间,帮助相关人员快速获取国内外新闻动态,并及时作出应急响应处理。此外,利用数据挖掘、机器学习等技术,能够深层次地挖掘文本背后的语义,形成质量和准确度都较高的摘要。本文提出一种基于语义的自动文本摘要生成算法,以海外新闻文档为研究对象,利
运动目标跟踪作为机器视觉领域的重点研究内容,广泛应用于智能监控、智能交通、人机交互等各个领域。但由于跟踪场景复杂多变,跟踪效果易受遮挡、尺寸变化和快速移动等干扰因素的影响,想要设计一个鲁棒性高、通用性好、精确度高的目标跟踪算法仍然面临许多挑战和难题。因此,本文对核相关滤波跟踪算法进行研究,从位置预测、特征融合、尺度更新和模型更新四个方面进行改进,解决了算法存在的遮挡、尺度变化及跟踪误差累积问题,显
工作票是大型复杂IT系统运行时的产物,记录着系统产生或者用户上报的故障事件信息,是开展系统运维活动的重要数据载体。实现工作票问题自动化分类是智能化系统运维的重要研究内容之一,对于提高系统运维效率,降低系统运维成本有着显著的贡献。现有的工作票分类方法未考虑工作票问题分类标签中存在的噪声,且存在分类方法精度不够高的问题。因此,有必要研究面向噪声工作票的分类方法,以消除噪声标签给工作票有效分类带来的负面
有监督学习是从标签化训练数据集中推断出函数的机器学习任务,是机器学习中最重要的分支之一,近年来随着深度学习的发展,有监督学习的性能得到了巨大的提升,例如深度残差网在ImageNet数据集上1000个类别的top-5物体识别精度已经达到97.7%,已被证明超越了人类的识别能力。但是,有监督学习受到一个非常强力的约束,即测试数据必须与训练数据来自同一类别,且需要为每个类别搜集数百乃至上千个有标签的样本
乐谱是用符号来记录音乐的方法,最初是以纸张为载体的。随着电子技术的发展,纸质乐谱可被扫描或拍摄成为乐谱图像,解决了纸质乐谱不易保存、复制、分发等弊端。计算机及互联网技术的浪潮,促进了各种音乐应用的兴起,而能被计算机理解的音乐文件是这些应用的数据基础。本文以拍摄或扫描的乐谱图像为研究对象,通过图像处理与识别的算法,将其转化为计算机能理解的MIDI文件,并基于上述算法构建了乐谱识别软件系统,具体工作如
无人驾驶是人工智能系统在人们生活中的重要应用之一,具有巨大的发展前景。图像语义分割技术作为无人驾驶系统中的重要技术之一,为无人系统分析道路可通行性提供了技术支持。目前,大部分网络模型采用相同的感受野提取图像语义特征。这将导致模型丢失大量的尺度信息,降低模型的分割效率。此外,为提高分割精度,模型常常具有庞大参数量。这不仅导致计算速度缓慢,还增大了对硬件资源的需求量,不利于模型在无人系统中的应用。本文