【摘 要】
:
人工智能技术的高速发展,极大地改变了传统决策模式,数据中潜在的关联规则与因果关系,使得数据驱动的机器学习算法在军事、经济、工业等领域有广泛的应用。分类算法通过有监督的方式对离散型随机变量建模并预测,是当前机器学习中非常重要的研究领域,能有效解决实际生活的各种预测模型与评估分析的问题。传统的分类算法通常只对一个标签进行预测,然而在实际应用中各样本可能由多个标签标注,现实场景面临的复杂情况已经不能仅仅
论文部分内容阅读
人工智能技术的高速发展,极大地改变了传统决策模式,数据中潜在的关联规则与因果关系,使得数据驱动的机器学习算法在军事、经济、工业等领域有广泛的应用。分类算法通过有监督的方式对离散型随机变量建模并预测,是当前机器学习中非常重要的研究领域,能有效解决实际生活的各种预测模型与评估分析的问题。传统的分类算法通常只对一个标签进行预测,然而在实际应用中各样本可能由多个标签标注,现实场景面临的复杂情况已经不能仅仅依靠传统的单标签分类方法得到解决,于是多标签分类应运而生。当前针对多标签数据集的主要处理方法分为基于问题转化和基于算法转化两大类,由于在很多应用领域中使用基于传统方法得到的多标签分类算法得到的效果有待提升,于是越来越多的研究试图通过考虑标签以及特征之间的相关性等数据关系以提高算法在多标签分类问题上的性能与计算效率。本文基于聚类、相关系数、信息熵等计算,针对多标签数据集中标签和特征等方面进行分析,从标签分区、特征选择、以及特征与标签数量的关系等展开研究,进一步改进基于多标签分类算法的预测效率及准确度,对真实案例建模并预测。论文主要从以下几个方面展开相关工作:(1)基于多标签共现图的标签分区算法研究。针对低阶多标签分类算法不能很好地挖掘多标签隐式特征信息、使用标签组合容易造成模型过拟合等问题,首先使用基于共现图聚类的分区方式挖掘标签间相关性,然后通过标签组合构造的新类进行预测,最终在数据集上验证算法性能得到有效提升。(2)基于多标签熵的特征选择算法研究。针对当前多标签特征选择对标签相关性考虑不全面、而基于信息论的算法仅从互信息等角度进行选择特征的问题,首先基于Pearson相关系数计算任意两个特征之间的相关性,并去除线性相关的冗余特征,然后使用任一特征和标签集之间的近似联合互信息衡量不同特征的重要性,对特征重要性进行排序并测试不同特征数对算法的影响,最终在数据集上验证通过不同多标签特征选择方法选取特征的结果。(3)基于特征与标签数量关系的多标签建模方法研究。针对真实具体预测问题进行建模,探究特征与标签的数量关系,权衡并确定建立模型的特征数与标签数,然后对本文提出的面向多标签分类的标签分区与特征选择算法进行集成,验证本文提出方法的有效性。
其他文献
知识图谱作为一种结构化的信息,已被广泛应用于搜索引擎、问答系统等自然语言处理应用中。为了满足日益增加的世界知识,自然语言处理领域的研究者们致力于探索高效地自动获取世界知识的办法,那便是关系抽取技术。传统的关系抽取采用了管道式的抽取方法,首先识别出文本中的所有实体,再将实体两两组合,判别实体对所属的关系。管道式抽取方法忽略了命名实体识别和关系分类两个任务之间的紧密联系和相互作用,且实体识别的误差会传
随着天基系统任务的功能需求越来越复杂、响应时间越来越短,基于传统卫星开发方法搭建的天基系统中卫星功能固化、软硬件过耦合、资源分配不均衡、卫星任务协同难度大、开发自动化程度低,应对新的任务难以提供智能和高效的解决方案。本文对面向任务的天基系统软件集成开发的关键技术开展了研究,主要研究内容如下:(1)针对卫星功能固化、软硬件过耦合的问题,对传统卫星软件体系架构进行优化,是软件集成开发的结构基础。基于轻
在网络和分布式系统中,网络协议是实现节点间有序数据交互的关键。传统的三层以上协议多基于软件实现。但随着5G、TSN等新型通信技术的出现与发展,网络和分布式系统对数据处理性能提出了更高的要求,这促使硬件加速协议处理成为协议实现的重要方式。例如,微软、Xilinx将TCP卸载到硬件上提升吞吐量。伴随着大量新型通信技术的涌现,协议的复杂程度不断提升。在过去的工作中,硬件加速协议处理常采用有限状态机模型,
对于卫星这一类小子样、高可靠性、长寿命的航天产品,有效的可靠性评估是确保航天器安全运行、航天任务顺利实施的重要基础。作为卫星可靠性分析的必要内容,卫星平台的剩余寿命(remaining useful life,RUL)预测往往面临试验数据少的问题,无法保证评估结果的准确性。本文针对工程应用的实际需求,基于贝叶斯理论,对融合卫星平台多源信息的系统级RUL预测方法进行分析讨论,具体从以下三个方面开展了
轻量级分组密码作为现代密码学的重要部分,因其实现代价小、易于标准化、运行速度快、吞吐量大等特点,被广泛应用于物联网设备的安全机制中。故障分析作为分析轻量级分组密码的重要方法之一,攻击者通过激光、电磁场、时钟毛刺等方式向密码设备注入故障,获得错误输出,然后基于分析错误输出中包含的信息,即可用较低的代价破译密码算法。该攻击方式不仅容易实现,且攻击威力大,因此故障攻击可以有效检测物联网中密码算法的安全性
联邦学习作为一种具有保护训练数据隐私特点的分布式模型训练方法受到了广泛关注。然而,已有研究表明,由于本地模型更新中不可避免的包含了训练数据的信息,可被攻击者利用,以此来窥探本地训练数据特征。本地化差分隐私机制是一类广受关注的数据隐私保护方法。然而,本地化差分隐私机制如何高效应用于联邦学习、对数据添加满足本地化差分隐私的扰动会对联邦学习性能(收敛性及训练精度)带来何种影响、以及扰动后的联邦学习系统抵
食品快速检测工作越来越贴近广大老百姓的生活,这也是市场监管部门积极推进的一种食品安全监督管理的工作模式。在食品快速检测工作中,盲样制备作为前置环节,其盲样质量直接影响后续的检测结果。本文梳理分析了盲样制备工作中存在的一些问题,提出了改进措施与建议。
深度神经网络在从语言建模、计算机视觉到语音识别等广泛的应用领域取得了巨大的成功。然而,目前,仅凭良好的性能还不足以满足实际部署的需要,在涉及伦理和关键应用的情况下,需要可解释性。目前对于可解释性的研究无法满足需求,深度神经网络的复杂模型使其难以理解和推理预测,这阻碍了其进一步的发展。因此,提高模型的可解释性不仅具有学术意义,更具有现实价值。本文的研究思路是通过集成学习增强可解释系统。依据研究思路,
挥发性有机污染物(VOCs)种类繁多且时空变化迅速,这在生态环境和生命健康等领域中产生了严重的危害。因此,研究和开发快速、精确、高灵敏度的VOCs检测方法与技术具有极为重要的意义。在线检测中的光电离质谱具有谱图简单易解析、灵敏度高、检测速度快等优势,在复杂样品在线监测及快速分析检测中得到越来越多的应用。光电离质谱常用真空紫外氪气放电(VUV-Kr)灯作为光源,因其光通量和光子能量都相对较低,从而导