类别不均衡数据的特征选择与重用

来源 :上海大学 | 被引量 : 0次 | 上传用户:liminice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是当前人工智能领域,尤其是机器学习领域的研究热点之一。随着人工智能和计算机科学技术的迅速发展,特征选择在理论和应用方面均得到了较大的发展。特征选择不仅可以去除数据的冗余特征信息和无关特征信息从而提高原始数据的质量,而且还可以大大降低数据挖掘的成本。 本文主要讨论了集成学习在处理类别不均衡问题时的特征选择和多任务学习用于特征重用的研究及其相关应用。在类别不均衡方面,本文对于采用基于风险预报准则的特征选择的集成学习进行了深入地研究;在特征重用方面,本文对于采用遗传算法来动态地确定多任务学习的输入和输出特征的搜索策略进行了深入地探讨。 本文的主要工作在于以下三点:1)在Bagging集成学习中引入了非对称取样和嵌入式特征选择方法,从而提出并论证了基于风险预报准则特征选择的非对称Bagging集成学习算法:PRIFEAB;2)在Adaboost集成学习中引入了非对称取样和嵌入式特征选择方法,从而提出并论证了基于风险预报准则特征选择的EasyEnsemble集成学习算法PREE和基于风险预报准则个体特征选择的EasyEnsemble集成学习算法PRIEE;3)冗余特征用于多任务学习时的特征搜索策略,采用两位二进制编码的遗传算法随机搜索策略,从而提出并论证了基于遗传算法随机搜索策略的加强型多任务学习算法e-GA-MTL。 在多个标准数据集上的实验证明,本文所提出的算法比原有算法有更好的性能。同时,这些算法在药物活性预报、质谱数据分析和基因芯片数据分析等现实问题上得到了很好的应用,体现了良好的应用性。
其他文献
随着对外交流,引进先进技术的增加,人们接触专利文献的机会越来越多。从事科技翻译的人员经常要遇到专利文献的翻译问题。而术语翻译尤其是专利文献翻译的一个重要部分。近年
现有基于Petri网、Agent等技术的多媒体同步模型,均使用单一的同步尺度,难以解决流内同步和流间同步的矛盾。选择对象粒度太小,有利于保持流间同步,但会破坏流内同步,即造成
学位
随着信息时代的到来和计算机网络技术的飞速发展,分布式环境日益普遍,而传统的集中式数据挖掘技术无法解决分布式下的挖掘问题,故在分布式下如何进行有效的数据挖掘成为当今
近年来,随着互联网和各种信息交互平台的大力发展,现实世界中的个体在不同的网络虚拟空间中形成了多种多样的社会网络。其中,各种交流论坛收集了丰富的用户个人信息,用户之间
本体,这个概念起源于哲学,在计算机科学与信息科学领域,因为它对知识工程中的很多问题有很大的帮助,所以在最近几年,有着很大的发展。生物医学领域,近几年也在飞速发展,而本
随着互联网技术的不断发展,网络入侵技术也在不断进步,复合攻击已经成为网络攻击的主要形式之一,给社会带来了越来越大的危害。现在大多数的入侵检测系统只能检测到攻击,却不
公钥基础设施PKI以非对称加密技术为基础,为网络信息安全提供保障。PKI以数字证书为密钥管理工具,终端实体之间进行通信之前必须要验证使用的数字证书是否已经被撤销,即验证
相似网页(Near-Duplicate Web Pages)在互联网中的大量存在,给搜索引擎带来了多方面的问题,如爬行程序反复的搜录同样内容的网页给搜索引擎的爬行程序自身及互联网都带来了沉
随着网络技术的飞速发展,在Internet上出现了很多新的应用,比如网络会议、视频点播、分布式内容系统、远程教学等,这些应用都依赖于从一台主机向多台主机或者从多台主机向多