多标签分类器链中基于贝叶斯网络的标签关联性分析与特征选择

来源 :深圳大学 | 被引量 : 0次 | 上传用户:zhuzhutoutuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着现代信息技术的飞速发展,人类进入信息社会,越来越多现实应用领域涉及到多标签学习问题,如文本分类、生物信息学、图像识别等等。传统的单标签学习中,学习对象只隶属于单一类别,而多标签学习中,学习对象可同时隶属于多个类别,并且类别(标签)之间存在着复杂的关联性。多标签学习的目的是准确预测未知样本具有的标签子集,由于标签数量可能巨大且互相之间存在着复杂的关联性,因此,比传统的单标签学习具有更高的难度与挑战。如何发现和充分利用标签之间的关联性是多标签学习研究的核心内容,进而提高多标签学习方法的分类性能。多标签数据集通常由高维的特征向量组成,其中包含了大量冗余和不相关的特征,增加了分类器构造的时间复杂度和空间复杂度。基于此,本文将从多标签学习方法和数据降维两个方面展开研究,主要工作包括以下两点:一、基于贝叶斯网络的分类器链(BNCC)方法。该方法用条件熵来描述标签之间的依赖关系,并建立完全连接的有向网络,其中节点表示标签,有向边的权重表示标签的关联性。BNCC方法利用迭代的方式断开网络中的有向环,将完全连接的有向网络重新定义为有向无环图(DAG),并在其节点上应用拓扑排序导出初始的标签排序。随后,方法设计一种新的评分函数来评估网络结构的优劣,并引入启发式算法基于初始的标签排序来优化贝叶斯网络。最后,将拓扑排序再次应用到优化后的贝叶斯网络节点上,得到构建分类器链模型的标签顺序。实验比较证明了该方法的可行性和有效性。二、基于标签相关性和BNCC方法的多标签特征选择方法。该方法以最小化损失函数为目标,根据BNCC方法得到的标签次序,引入一个特征参数集,构造基于分类器链模型的条件概率函数模型。基于条件概率最大化原则,构造新的特征选择评分函数,之后再利用互信息对其进行分解和优化取近似值,最后引入启发式搜索策略寻找最优的特征子集。我们以支持向量机(SVM)为基础分类器进行两组实验,一组实验将所提出的方法与两种现有的特征选择方法相比较,另一组实验将所提出的方法与三种分类器链的构建方法相比较。实验比较证明了该方法的可行性和有效性。
其他文献
随着人们生活水平日益提高,生理机能健康越来越受到大众的关注,生理功能下降已被认为是引发人体各种疾病的主要诱因。如果不采取适当和必要的措施,生理机能下降将导致更多的并发症。生理机能评估是对人体各部分机体能力做出科学合理的评价,是预防生理机能病变、保障人体健康的重要步骤。目前生理机能的评估需要在专业人员的全力配合下进行,这样带来大量人力时间成本。针对此类问题,本文观察到将基于深度信息的人体活动分析与评
溴酸盐是含溴化物的水在进行臭氧消毒过程中形成的副产物,国际癌症研究机构(IARC)将其列为潜在的致癌物。溴酸盐的去除方法包括物理法、化学法和生物法。其中生物法通过微生物自身代谢作用在以有机物等作为电子供体条件下将溴酸盐还原为无毒的溴离子。该方法具有低能耗、无二次污染等优点,应用前景广阔。然而,在微生物还原溴酸盐的研究中,溴酸盐还原功能菌群的多样性尚不明确,溴酸盐还原功能基因和代谢机理尚未明晰,溴酸
目前全球大约有2.85亿视力障碍人士,他们因失去视觉这一重要信息源而渐渐被社会边缘化。通过将视觉图像处理技术应用到盲人辅助系统中帮助他们更好地从周围环境获取信息,具有较大的工程意义和社会意义。随着深度学习的发展,以卷积神经网络为基础的目标检测算法开始应用到盲人视觉辅助系统中,其在识别率和鲁棒性上都优于传统图像处理技术。然而,因为卷积神经网络运算中包含大量乘加计算与频繁的数据读写,导致算法移植到资源
蛋白的氧化还原是普遍存在于生物体内的一种化学反应,可由物理、化学和生物因素诱导产生。生理水平的活性氧簇(Reactive oxygen species,ROS)对细胞增殖和生长有积极的调节作用,但如果超过某一阈值,将会严重损害DNA、蛋白质、脂质等生物大分子,造成细胞功能丧失甚至不可逆损伤。含硫氨基酸甲硫氨酸(Methionine,Met)是最易被氧化的氨基酸之一,氧化后的甲硫氨酸形成两种差向异构
既有研究表明保障性住区存在特定人群特征与居住需求,其户外公共空间存在供给与需求不匹配的问题,包括户外空间景观化、功能与设施配给不足、人均活动场地面积偏小等问题。这些问题一定程度上影响了居民的居民生活质量和居住满意度。本研究以保障性住区内的户外公共空间为研究对象,聚焦于居民时空间行为与户外空间关系,围绕着如何提升保障性住区户外空间供给与需求的问题展开。研究在对深圳保障性住房项目进行普查式调研的基础上
空间RDF数据上的Top k最相关语义地点检索查询结合了基于关键词检索和基于地点检索的两种思想。这种查询会返回一组语义地点,每个语义地点都是以一个以带有关联位置信息的地点实体节点为根节点的子图。该查询通过计算一个评分函数来获取语义地点和关键词之间的相关度。这个分数由每个关键词在结果树上出现的节点和地点节点(根节点)的距离组合可得。但我们观察到由kSP(Top k Sematic Place)算法查
对话系统是自然语言处理领域一个重要的研究课题。越来越多的服务商使用智能对话系统来帮助他们减少人工开销。同时,也有越来越多的用户愿意使用智能对话助理来帮助他们完成日常的各项工作。特别是近年来,随着深度学习等技术的发展,面向开放域的对话系统逐渐成为了研究热点。为了设计更好的对话系统,对系统生成的应答进行质量评估,是研究过程中不可或缺的一步。一个好的评估方法,将有助于缩小机器对话与人类之间的差距。然而,
随着万物互联时代的来临,不同于云计算时代,大量数据在网络边缘产生,有限的网络接入带宽和应用对实时性的要求使得远端的云计算中心不能对海量数据进行高效处理。多址边缘计算(Multi-access Edge Computing,MEC)技术作为云计算模式在边缘网络中的扩展,能够在边缘网络中支持资源密集、延迟敏感型应用,并为用户提供有地理位置感知的实时服务。但与此同时,新型信息服务和面向业务类应用的快速增
在现实生活中,人们常常需要对自己拍摄的照片进行各种操作,以实现期望的视觉效果。例如给照片中的人物化妆,改变图像中的呈现的时间或季节,按照某种特定艺术风格对图像进行渲染等等。这通常需要借助相应的图像编辑工具,例如Photo Shop等,并花费大量的时间和精力才能实现上述效果。图像风格转换技术可自动地实现上述图像编辑任务,降低图像编辑的操作难度,提升易用性。给定一张内容图像作为输入和一张图像作为风格参
深度学习是机器学习领域中的一个研究方向,是一种以复杂神经网络为基础架构,学习数据的内在规律和表示特征的算法。深度学习使计算机具有像人一样的分析学习能力——能够识别文字图像声音和挖掘数据内部特征,因此,深度学习已被广泛应用于搜索技术,数据挖掘,自然语言处理,图像识别,机器人导航,推荐系统和个性化技术中,同时也在其他相关领域中取得了许多成果。然而,现有的深度学习模型在计算上昂贵且占用大量内存,从而阻碍