【摘 要】
:
多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别。此类任务在文本分类、图像识别、基因功能分析等领域广泛存在,是当前国际机器学习领域研究的热点问题之一
论文部分内容阅读
多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别。此类任务在文本分类、图像识别、基因功能分析等领域广泛存在,是当前国际机器学习领域研究的热点问题之一。多标记学习的研究主要围绕降低特征空间和标记空间的复杂性,提高多标记学习算法的精度而展开。邻域粗糙集是Pawlak经典粗糙集的延伸与扩展,摆脱了粗糙集只能处理名义型数据的约束。邻域粗糙集模型有着清晰的分类边界,能够更好的挖掘分类任务的结构。目前已经被应用于特征选择、规则学习和分类器设计等各个领域。但是在多标记学习方面,邻域粗糙集模型还未得到深入的研究。本文利用邻域粗糙集模型的特点,将其应用在多标记学习问题的特征选择和规则学习两个方面。主要研究成果和创新点如下:首先本文提出了基于邻域粗糙集模型的多标记学习特征选择方法。将单标记学习的邻域粗糙集模型扩展至多标记学习中,系统的讨论了多标记学习邻域粗糙集模型的性质,并验证其依赖度和下近似的单调性,进而设计了使用前向贪心搜索策略的多标记特征选择方法。同时引入两种加速机制来提高模型效率,并进行实验验证。通过实验对比及显著性检验验证,一般情况下,该模型在图像、文本和音频等多标记学习任务中是有效的。其次,本文提出了基于邻域覆盖约简的多标记学习的分类规则学习方法。一般的,样本的邻域是采用统一的参数来控制样本的邻域半径,而在邻域覆盖中,不同的样本可以使用不同的邻域半径。因此本文利用邻域覆盖的这个特性,在多标记学习中定义了邻域覆盖,在每个类标下求得邻域覆盖约简,将得到的分类规则进行合并,最终得到了多标记的分类规则。
其他文献
DNA计算是以DNA分子作为信息载体,各种生物酶作为算子的一种新型计算模型。DNA计算具有高度的并行性,超高的存储密度和极低的能源消耗等优势,为求解NP完全问题提供了一条富有
投入产出技术自1936年提出以来在经济分析中得到了广泛地应用,并且在实践中得到不断完善和发展。作为一种重要的计量手段,投入产出分析能够反映国民经济各部门投入和产出之间
随着我国油田开发的不断深入和尾管固井技术的不断发展,对旋转尾管悬挂器等固井工具的性能要求在不断提高。旋转尾管悬挂器轴承作为连接上接头与下层套管的重要零件在该系统
石油企业作为大型国有企业,是我国国有经济的重要支柱,在我国国民经济的发展中起着重要的作用。思想政治工作是中国共产党一切工作的核心,是中国共产党的优良传统和政治优势
Spark Streaming是大数据流式计算的最新进展,是建立在Spark引擎上的批量流式数据计算平台。它将流式计算看作一连串短小的Map/Reduce型的批处理作业,以获得较高的数据吞吐量
核磁共振成像(Magnetic resonance imaging,MRI)是一种新型的医学成像技术,然而其过长的扫描时间是核磁共振成像技术面临的挑战性的问题。压缩感知方法突破奈奎斯特采样率,能
随着半导体工艺的不断成熟,芯片的规模越来越大,结构越来越复杂。为了保证芯片的良率和可靠性需要进行复杂的测试。测试超大规模的芯片需要海量的测试数据,而且由于芯片测试
电气设备检修是电网系统稳定运行必不可少的一项维护工作,然而,当前供电企业主要依赖制度对现场检修工作进行管理,缺乏技术强制措施。同时,也经常委托第三方公司进行检修操作
随着遥感技术应用的不断发展,高光谱遥感逐渐反映出信息定量化的趋势,而混合像元分解正成为现今高光谱遥感研究的重点和难点。受制于噪声等外界不确定因素的影响,混合像元分
支持向量机(Support Vector Machine,SVM)是基于结构风险最小化原则和统计学习理论(Statistical Learning Theory,SLT)上的一种新型机器学习方法,具有出色的学习性能、泛化性