基于局部标签关联的并行多标签k近邻

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:fang514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签分类问题中每个对象和若干个类标签关联,多标签分类的主要任务是识别所有可能和样本关联的标签。多标签分类的主要挑战在于如何应对随标签数量的增长呈指数级的标签输出空间,然而现存的多标签学习算法无法高效地挖掘和利用标签之间的关联性促进多标签学习过程。多标签k近邻算法(Multi-Label k Nearest Neighbor,ML-kNN)由经典的kNN改而来的惰性多标签学习方法,其克服了多标签学习领域类别不平衡问题且继承了惰性学习的优势,但其忽略了标签之间的关联性。基于ML-kNN的特点,本文在ML-kNN预测样本的标签集合时引入局部标签子集的关联性提高模型的有效性;此外,结合分布式计算框架和惰性学习的优势,本文对局部关联多标签k近邻算法进行了并行化研究,使其能够适应大规模多标签数据挖掘应用。本文主要的研究工作如下:1.为了提高ML-kNN的有效性和泛化能力,本文提出了一种局部标签关联多标签k近邻分类方法。首先为了缩减标签空间,按照互信息的大小选择和标签具有共现和互斥关系的标签子集,其次在计算标签的后验概率时考虑标签子集在近邻中分布的影响;最后,使用标签子集在近邻集合中分布的相似性对满足约束的样本计数。为了验证模型的有效性,本文对比了6个经典的多标签分类方法在8个不同领域的多标签数据集上的效果,实验表明其能够充分利用标签之间的关联性促进模型学习过程。2.为了进一步提高模型对大规模多标签数据集的适应能力,结合惰性学习的特点和大数据处理技术,本文提出了MapReduce框架下的局部标签关联多标签k近邻分类算法。整个MR作业由各个小模块组成的链式结构共同完成计算任务,在保证分类精度的前提下提升其对大数据的适应能力和可扩展性。3.为了充分发挥内存计算的优势以及进一步提高算法的性能,本文提出并对比了Spark框架下的并行化算法,且从多个角度分析了不同分布式框架下算法性能的表现。
其他文献
反问题在现代的科学研究中越来越受到关注,而解决反问题的有效途径就是提出相应的正则化方法,将不稳定的非线性问题变为稳定的近似问题,而近似程度取决于正则化参数的选取。Tikhonov方法在参数选取上依赖解的光滑性条件,且目标泛函全局极小值也会受到初值的影响。而在实际中,难以捕捉到有效的解的先验性信息,所以本文将迭代法应用到求解非线性不适定问题来获得稳定近似解。本文在Euler方程的基础上引入同伦方法,
在当今这个全球经济一体化的时代,金融市场是具有复杂运动模式的庞大动力系统。金融时间序列(FTS)是金融市场中一种非常重要的数据表现形式,是市场内在运作规律的外在表现。通过预测分析FTS,可以探究市场潜在的运行规律和信号特征,为金融问题的决策提供宝贵依据,方便从业人士监督管理市场并防范金融风险。因此,有关FTS的分析和预测研究具有重要的理论价值和实践意义。FTS通常表现出非线性和非平稳特征,导致了F
晶体相场模型是研究结晶物体微结构演化的重要模型.该模型自由能密度泛函的极小值点对应有序结构.这是一类具有高阶导数、多解、非线性的变分问题,一般很难求出它的解析解.一个有效的方法是采用数值求解,但是数值求解过程中会有困难,主要困难在于模型初始值的选取、计算半径的范围以及物理参数的范围.为了解决这些问题,我们研究了单波近似法.该方法是研究结构稳定性的一种近似方法.在一定的假设下,它将一个寻求自由能密度
研究区主要位于内蒙古温多日哈日地区位于兴蒙造山带南段,区域内构造作用以及岩浆作用较为发育,其间出露了很多古生代岩浆岩,主要以侵入岩为主。为此,本论文选取研究区内广泛分布的花岗岩为研究对象,结合研究区区域内野外地质调研、采样、室内整理资料、实验分析等,对兴蒙造山带南段的温多日哈日花岗岩体岩石学、地球化学特征、年代学进行了综合研究。温多日哈日花岗岩体主要是以二长花岗岩为主,通过对于区域内二长花岗岩进行
[目 的]研究2型糖尿病共病抑郁障碍患者的认知功能损害,测定caspase-1、IL-1β表达变化与认知损害之间的关系。进一步探究caspase-1、IL-1β在2型糖尿病共病抑郁障碍患者认知
青藏高原是印度板块和欧亚板块持续汇聚的产物,是全球造山过程的研究的天然实验室。查孜地区地处青藏高原腹地,位于冈底斯山南麓,地处日喀则市昂仁县查孜乡、阿木雄乡境内分布着大量的钾质-超钾质岩浆岩。本文主要以查孜乡及周边地区为主要研究工作区,选择研究区内钾质-超钾质岩石为研究对象,开展年代学、岩石学和主微量稀土元素的研究分析,探讨查孜乡地区的钾质-超钾质岩石成因及地区的构造演化特征,为青藏高原形成的演化
辐射扩散方程是描述辐射传输过程的基本模型,保对称有限体元法是数值求解该方程最常用的离散方法之一,但在求解这类问题的过程中,常面临着离散系统规模大、周期边界条件和大变形网格等因素带来的挑战,导致其离散系统条件数很差,因而需要为其设计高效预条件求解算法.本文针对求解两种情形下周期结构系数矩阵的离散系统的高效预条件算法开展研究.首先针对第一种情形下周期结构系数矩阵的二维辐射扩散问题的离散系统,通过引入合
2015版《中国药典》中记载苍术基原物种为北苍术Atractylodes chinensis(DC.)Koidz和茅苍术Atractylodes lancea(Thunb.)DC.。北苍术、茅苍术和关苍术在最新《中国植物志》中
在用于检测阴阳离子的各种可用技术中,荧光检测更为优选,因为荧光化学传感器具有高选择性,高灵敏度,低成本,快速响应和操作简单等优点。在已报道的用于检测阴阳离子的传感器
目的评价脑电意识指数(index of consciousness,Io C)监测即镇静(Io C1)联合镇痛(Io C2)监测对微血管减压术患者早期恢复质量的影响。方法选择择期行微血管减压术患者(临床诊