基于构造性学习的覆盖算法的发展及应用

来源 :安徽大学 | 被引量 : 5次 | 上传用户:sb0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习通过使用机器来模拟人类的学习活动,从已知事物中发现规律、获取知识,从而建立对未知事物的预测模型,根据经验不断提高自身的水平。研究者经过多年的探索,提出了如支持向量机、决策树、神经网络等多种优秀的学习方法,并将这些方法推广到机器学习中的各个领域。中国学者在基于覆盖思想的学习方法上进行了很多工作,张铃和张钹所提出的基于构造性学习的覆盖算法被认为是一种具有代表性的方法。覆盖算法能够根据样本的自身特点来构造神经网络,克服了传统神经网络中的一些缺陷,如网络结构难以确定、速度慢等。该方法形式直观,能够有效对多类分类问题和海量数据进行处理,在一些实际应用中表现出良好的性能。相关研究者围绕着该算法的改进和应用进行了大量的研究工作。目前已有的对覆盖算法的各项工作都是针对单示例单标记的学习方式来进行的,但随着机器学习的发展,不断出现一些新的学习问题。本文结合机器学习中出现的一些新模型,对覆盖算法进行了发展和应用,主要体现在如下几个方面:(1)对覆盖算法进行了全面研究,并将算法应用于实际分类问题的解决。本文对覆盖算法的基本模型以及近年来所取得的各项理论和应用成果进行了全面研究,探讨了如何将算法应用于文本分类和垃圾邮件过滤等问题的解决。在应用过程中,针对实际问题的特点,设计了不同的改进策略。在文本分类中,通过引入维数调节的策略,使不同类别文本的特征能够在特征向量中均等出现,提高文本分类的准确率。在垃圾邮件过滤中,将邮件的各类附加信息与正文内容一起构成复合特征,提高过滤器的分类效果,并针对垃圾邮件过滤中正常邮件的风险最小化问题进行了讨论。(2)对核覆盖算法进行了细致分析,将算法加强为模糊核覆盖算法。支持向量机方法通过将样本映射到高维特征空间后构造最优分类超平面,取得了优秀的分类性能。将核函数引入到覆盖算法后所得到的核覆盖算法能够有效提高分类能力,但仍存在不足之处。本文对核覆盖算法中的半径选择策略和分类原则进行了细致分析,指出现有处理方式所存在的缺陷。通过改变领域半径的确定原则,并对拒识样本引入新的隶属度函数来描述样本对各个类别的隶属度,将算法加强为模糊核覆盖算法,明确了隶属度函数的物理意义。引入几种性能不同的覆盖约简方法,结合模糊核覆盖算法,能够在保持识别性能的前提下,有效降低覆盖数量,提高分类效率。在一些数据集上的测试和对比表明了方法的有效性。(3)研究了多标记学习下的覆盖算法。传统学习问题中,每个样本只属于一个类别,即仅有一个标记。而在实际应用中,一个样本可能同时属于多个类别,如文本分类和场景分类等。本文对多标记学习中的样本集分解和算法改造两种策略进行了研究,针对多标记学习的特点和评价指标,探讨如何使用覆盖算法来解决多标记问题。实验表明,多标记覆盖算法的性能达到了同类算法中的先进水平,并且在时空开销上具有优势。由于多标记学习中对训练数据的标记需要更多的人力和物力,因此数据集中的已标记样本数量一般较少。为了能利用大量未标记样本来辅助学习,本文采用半监督学习中的自训练策略,结合已标记样本和未标记样本来训练分类器,提高分类性能,取得了一定成效。(4)讨论了如何在多示例学习中使用覆盖算法进行分类。多示例学习与传统的监督学习、无监督学习和强化学习都存在差异,是机器学习中的第四种框架,起源于药物分子活性预测的研究。在多示例学习中,学习的对象是由多个示例所构成的包,包的标记已知,示例的标记未知,但包的标记是由某些示例决定的。多示例学习的难度比带噪声的监督学习难度更大。本文对现有的各类多示例学习方法进行了研究,对如何将覆盖算法应用于多示例学习进行了探讨,根据不同的解决思路,给出几种多示例学习覆盖算法,算法效果达到大多数同类方法的水平。多示例多标记学习结合了多示例学习和多标记学习两种问题,是分类问题中的最一般情况,能够描述输入空间和输出空间中所具有的歧义性。本文探讨了如何将覆盖算法与其它方法相结合来解决该问题的思路,并给出初步的解决方案。在本文的研究工作中,进行了如下创新:(1)将覆盖算法应用于文本分类和垃圾邮件过滤等实际分类问题,并针对具体应用的特点分别提出不同的调整策略,提高分类器的性能。(2)对核覆盖算法中如何确定领域半径给出新的策略;对拒识点引入新的隶属度函数;对隶属度函数的物理意义给予明确的解释;将核覆盖算法加强为模糊核覆盖算法;结合模糊核覆盖算法给出几种覆盖精简的方法。(3)将覆盖算法推广到多标记学习,结合样本集分解和算法改造两种策略,提出多标记覆盖算法,其性能达到同类算法的先进水平;以自训练策略为指导,提出一种半监督学习方式下的多标记覆盖算法。(4)将覆盖算法推广到多示例学习,提出几种不同思路的多示例覆盖算法;针对多示例多标记学习给出初步的解决思路。
其他文献
采用数值方法,对存在并联电阻的约瑟夫森结串联阵列进行了研究。首次发现当阵列中结的个数为3时,其中存在明显的混沌行为,并给出了存在混沌行为的参数范围。根据A.A.Chemikov和G.Sc
为构建一种高效低阻的疏水疏油过滤材料,将含氟聚氨酯(FPU)添加到聚氨酯(PU)纺丝液中,利用静电纺丝技术制备FPU/PU纳米纤维,并对不同FPU添加量的纳米纤维的结构形貌及纳米纤
主要介绍了某型装甲车辆动力舱冷却空气流动特性测试系统的组成、系统控制的硬件配置、测控软件的设计,并对冷却空气入口端流量的测试方法进行了分析和初步试验。
根据国家供配电系统设计规范以及民用建筑电气设计规范的规定,任何一级负荷都应配备两个电源,确保当一个电源出现故障停止工作时,另一个能避免受到伤害,除了这两个电源以外还
城乡差距一直是人们关注的话题,城乡差距过大不仅阻碍了社会的发展,而且是有悖社会公平、公正的。尤其是医疗保险的差距,更体现了这一点。疾病是每个人的一生中必定要经历的
目的探讨microRNA-96(miR-96)在胃癌患者组织和血清中的表达及其对胃癌细胞的作用。方法收集2017年1月至2018年1月期间本院收治的胃癌患者(n=15)和同期在本院做胃部活组织检
<正>1985年8月22日,英国空旅航空28M号航班(执飞机型:波音737)在曼彻斯特机场起飞过程中,发动机突然爆炸,碎裂部件击中机翼下方燃料箱快拆门,导致大量燃油泄漏,引发大火,最终
本文选择2011-2016年我国沪深两市A股市场中新能源概念板块上市企业为研究样本,对财政补贴、资本结构与企业成长性三者之间的关系进行了分析,并进一步分析了财政补贴对资本结
“淡化文体要求”,是近来人们较多议论的有关高考作文命题与阅卷标准的话题。“淡化文体要求”的说法有其特定背景,这就是两个“套子”的存在:一个“套子”是近年来作文教学中出
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield