距离加权判别模型在高维及不平衡多分类问题下的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ss1725
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的发展,带来了大量的高维多分类数据,并且这些数据通常存在类别不平衡问题。比如关于某疾病的基因数据,患病与不患病的人数相差悬殊,且患各类疾病的人数各不相同。关于多分类的模型已有广泛研究,但许多模型都建立在样本量大于变量个数(n>p)的条件下,且未对不平衡问题进行模型修正,本文主要对(p>n)条件下的高维不平衡多分类问题进行探究。首先针对高维多分类问题,本文提出了两种多分类距离加权判别模型,一是基于两两类别对比的SMDWD模型,二是基于角度的ASMDWD模型,并在模型中加入Elastic-net惩罚函数进行变量筛选。其次,针对不平衡问题,本文也提出了两种处理方法,一是采用比例加权的方式修正损失函数,二是采用集成模型的思想进行数据采样,并将这两种方法与本文的两个模型进行结合。本文利用坐标下降法对模型求解,模拟了多种不同数据分布的多分类问题,并且从分类预测效果及变量筛选两方面进行了评估。结果表明,当高维数据中存在大量冗余变量时,本文的方法相较现有的多分类距离加权判别模型更有优势,能够筛选出重要变量且提高分类准确性。SMDWD与ASMDWD在分类预测准确性和变量选择上各有优势,同时也取决于数据集的分布情况。ASMDWD的求解复杂度不会随着类别增多而线性增加,在运算速度上更具优势。此外,经模拟验证本文提出的两种不平衡修正方法也能有效适用于不平衡分类问题。最后,将本文的方法运用到实际的肺部肿瘤分类问题上,目标是根据基因数据进行肿瘤细胞分类,是典型的高维多分类且类别不平衡的数据集。结果显示本文提出的加权稀疏DWD模型具有最优的分类准确度,且能筛选出数据集中的重要基因。
其他文献
在现代信息化战争中,装甲车辆的噪声控制对于保护乘员健康和提高作战效率具有非常重要的意义。本文主要针对装甲车辆驾驶舱室的噪声主动控制方法进行研究,针对传统噪声主动控制方法无法适用于装甲车辆舱室内噪声这一问题,提出基于多种切换机制的解决方案,并且通过仿真及实验验证了本文提出的控制方法可以有效降低装甲车辆舱室内噪声。首先,对九二式步兵战车驾驶舱室的噪声信号进行采集,分别从时域和频域对驾驶舱室的噪声特性进
学位
层状过渡金属氧化物具有高比容量、高工作电位、环境友好和低成本的优势,被认为是锂/钠离子电池最具潜力的正极材料之一。P2-Na0.67MnO2为代表的层状锰酸钠材料因其开放的离子扩散通道、高比容量等优势受到广泛关注。但Mn3+的Jahn-Teller效应使得合成时易形成低对称性的杂相;循环过程中的层间滑移引起的相变也是限制锰酸钠正极材料应用的重要原因。阴离子氧化还原反应被认为是突破过渡金属限制提供更
学位
利用太阳能可持续转化CO2-H2O生成燃料或高附加值化学品,是实现碳中和的有效途径之一。传统热催化CO2加氢反应需要额外消耗大量的氢气,而利用太阳能光催化分解水产生氢并直接参与CO2加氢的协同催化反应将为高效转化CO2-H2O提供新的思路。本文利用一锅法合成兼具有良好光催化分解水产氢和热催化CO2加氢性能的Cu0/Cu2O双功能催化剂,发现该催化剂具有优异的光-热耦合催化转化CO2-H2O的反应性
学位
作为一个正在被不断拓展的概念,芳香性在化学研究领域中占据着重要地位。芳香性不仅可以稳定化合物,还可以稳定过渡态和中间体,促进反应进行。将超共轭作用引入芳香性研究之后,其研究范围已从主族拓展至过渡金属。但金属中心氧化态及环中sp3杂化原子的最大个数对超共轭芳香性的影响目前尚不清楚。并且,超共轭芳香性在反应中的作用有待进一步发掘。在本文中,通过理论计算,我们对一系列Au(Ⅲ)-取代吲哚阳离子及多取代五
学位
本世纪初,国内外公司被爆出了一系列财务舞弊事件,震动了全球资本市场,也引发了人们对于外部监管和企业内部控制更多的关注和重视。美国颁布了SOX法案,但后续基于成本效益性的考虑,永久地豁免了非加速申报公司强制执行财务报告内部控制(ICFR)审计,美国市场上呈现强制与自愿ICFR审计并存的局面。在我国,2012年通知文件颁布后,强制性ICFR审计规定在主板上市公司中正式实施,自愿性ICFR审计继续广泛存
学位
科技的发展导致大量的高维数据出现在各类领域中,如医学、基因组关联分析、金融。大量的高维数据的出现使得许多经典的统计方法失效。此外,将大量变量都放入模型会降低统计推断的准确性以及模型的可解释性。变量选择方法是一种常见的处理高维数据的手段。变量选择方法通过最优化特定的目标函数,可以同时进行变量选择以及参数估计,但面对变量维度随着样本容量指数级增长的情况,许多变量选择方法难以保证效果。因此,一些学者提出
学位
氧化铟锡(ITO)具有高电导率和可见光透过率,被广泛应用于太阳能电池及液晶面板。ITO薄膜刻蚀制程中产生大量刻蚀废液,废液中含有多种稀土,如铟、锡、钼等,若将其直接排放会造成环境污染。由于自然界中铟储量极少,随着电子行业快速发展,对铟的需求量急剧增加,故回收其中的铟尤为重要。本文系统性地研究了溶剂萃取法回收ITO刻蚀废液中的铟。对比各类稀土金属萃取剂优缺点后选取P204为萃取剂,磺化煤油为稀释剂。
学位
生态问题是近年来一个重点关注的话题,十九大将生态文明提升为一项“千年大计”。同时,互联网时代的到来将经济、政治、文化、社会等许多领域从原本传统的发展环境转变为网络环境。网络时代的环境展现出许多新的特点,这正是生态保护逐渐适应新的信息技术革命的需要。正是网络的加入,使得新的生态环境考核更加便捷、更加高效,节省了大量的人力、物力、时间。在这样的背景下,构建一个较为健全的生态文明考核信息平台,能够更好的
学位
为评价反装甲子母弹对装甲集群目标的毁伤能力,本文开展反装甲子母弹对装甲集群目标的毁伤评估研究,开发反装甲子母弹对装甲集群目标的毁伤评估软件,进行毁伤影响因素分析,具有较高的工程应用价值。根据反装甲子母弹结构与工作原理,考虑子弹落点散布的影响因素,采用Monte-Carlo方法建立了子弹外弹道模型,分析了反装甲子母弹开舱高度对子弹落点散布的影响。进行装甲集群目标特性分析,给出瞄准点的确定方法,提出了
学位
异佛尔酮是一种性能优良的有机中间体,用途广泛,经济价值高。传统工业制备异佛尔酮主要采用丙酮液相缩合法,该方法会产生大量含碱废液,环境污染大。随着环保要求的提高,采用固体碱催化丙酮气相缩合制备异佛尔酮越来越受到关注。但所采用的固体碱催化剂尚存在催化剂活性较差,目标产物的选择性偏低等问题。本论文选择镁铝复合氧化物固体碱催化剂作为研究对象,对比了采用不同方法(共沉淀法、水热法和机械混合法)制备的催化剂的
学位