【摘 要】
:
随着互联网的快速发展、物理介质存储能力的显著提升,人类社会生产生活中产生的大量数据被悉数存储下来。如何从大数据中去除冗余信息、归纳出有效信息,驱动着数据挖掘这一机
论文部分内容阅读
随着互联网的快速发展、物理介质存储能力的显著提升,人类社会生产生活中产生的大量数据被悉数存储下来。如何从大数据中去除冗余信息、归纳出有效信息,驱动着数据挖掘这一机器学习研究领域的发展。分类是机器学习的重要研究内容。传统的分类算法采用平衡数据集进行训练,因此对于平衡数据集具有较好的分类效果。然而现实的应用场景产生的数据集通常存在着类别的不平衡性,如医疗病例诊断、垃圾邮件过滤、社交网络异常用户检测等领域。传统分类算法在处理不平衡数据集分类问题时,往往难以保证少数类样本的分类效果。解决不平衡数据集的分类问题,具有重要的研究意义和应用价值。论文首先提出了一种针对网络结构数据的基于边的聚类算法,即集体行为推断学习算法。社交网络存在着幂律分布特性,即网络中大部分用户之间联系稀疏,少数用户群体间联系紧密。网络结构的不平衡性意味着该聚类算法能够适用于不平衡数据集的分类任务。聚类算法的性能依赖于初始的输入图结构,而网络通常含有噪声且具有冗余性。论文提出了一个新的算法,从初始输入图来学习到一个新的图,该图的低冗余性使得聚类算法能够更有效地执行聚类任务。结合集成学习策略,论文设计了一种基于集成学习的不平衡数据集的分类算法,该算法将集体行为推断学习算法和深度信念网络作为集成学习的个体学习器,利用Boosting算法对个体学习器进行训练,采用多数投票法对个体学习器的预测结果进行结合,完成针对不平衡数据集的分类任务。论文从分类算法、聚类算法、深度学习、集成学习等层面出发,提出了有助于改进不平衡数据集分类性能的算法和策略。
其他文献
亚洲玉米螟是东北玉米主产区发生最重、危害最大的害虫之一,利用赤眼蜂,如松毛虫赤眼蜂,玉米螟赤眼蜂等对其进行防治的手段已经较为普遍。根据田间的实际释放与回收蜂种的情况来看,田间寄生的玉米螟卵孵育出的大多数为玉米螟赤眼蜂,而松毛虫赤眼蜂的回收率偏低,这一现象的出现导致大家对松毛虫赤眼蜂防治亚洲玉米螟的效果产生质疑。寄生蜂之间的种内或种间竞争是一种普遍现象,这种竞争会影响对优势蜂种的正确评价,进而对防治
目的:考察脊髓水平5-HT2AR-PKC-GlyT2通路在切口痛大鼠痛觉敏化中的作用。方法:本实验均采用成年SD雄性大鼠进行疼痛行为学测定和分子生物学实验取材。首先,我们参考预实验结
InP基高电子迁移率晶体管(HEMT)具有高频率、高增益、低功耗和低噪声等优异特性,在高速卫星通讯、高精度深空探测等空间设备电子系统中具有巨大的应用潜力。在空间辐射环境中质
研究目的:当前老年人身体活动水平与医疗支出横断面数据的量化关系证据往往一致性不强。本文对混杂因素进一步控制,包括只纳入与身体活动相关性较强的慢性非传染性疾病药物费
由“5G+AI+lo T+4K”等高科技技术所构成的智媒体时代的到来,将赋能内容经济迸发出强劲的增长动力和业态活力。在未来,智媒体矩阵将对包括知识付费在内的多个内容经济细分领域进行深层次的变革,对构成内容经济业态的四大主体——内容平台、内容生产者、商业化服务者、内容消费者,的行为逻辑进行颠覆。在此宏观背景下,知识付费平台除了关注产品维度的发展和平台服务能力维度的发展,更重要的是在整个市场范围内打造
移动机器人作为机器人领域的重要组成部分,其理论和应用研究一直是研究热点课题并受到广泛关注。与工业机器人所处的结构化环境不同,移动机器人的应用环境具有复杂性、动态性
目的:通过观察血清YKL-40、GDF-15、OPG水平与SYNTAX积分之间的关联性,探讨血清YKL-40、GDF-15、OPG对于冠状动脉病变的临床意义,以便更好地指导临床医师。方法:选取2016-08—2018-08到承德医学院第二临床学院就诊并接受冠状动脉造影术检查确诊为冠心病患者172例,依据造影结果统计SYNTAX积分,然后依照统计结果分为低危组(SYNTAX积分≤22)和高危组(SY
植物在自然界中往往会受到多种植食性昆虫为害,当植物受到这种为害时自身会产生诱导防御反应并能对取食害虫起到直接和间接、有利或不利的影响。本文在国内外现有的研究基础上并结合课题组前期所积累的工作基础上,选择茶蚜、茶尺蠖幼虫为研究对象,利用昆虫生物学测定和分子生物学等研究方法,测定茶蚜蜜露对茶尺蠖的生长发育和取食选择的影响;茶蚜成虫为害不同天数的茶树叶片提取物饲喂茶尺蠖对茶尺蠖幼虫的生长发育影响;测定茶
随着我国高速铁路网络建设逐步从“四纵四横”迈向“八纵八横”,如今高速铁路已成为旅客出行主要选择的运输方式之一,高速铁路的发展和完善大大加剧了客运市场的竞争。在此背景下,城际旅客列车既有的票额分配方式已不再适应市场的变化和竞争。铁路客票分配调整工作目前是相关工作人员根据自身主观经验估计客流需求变化基础上进行的,由于主观经验难以对需求变化有较为准确的估计,导致客运需求和列车席位数量不匹配的现象时有发生
识别与疾病相关的microRNA(miRNA)有助于我们了解疾病的病因以及发病机理。研究发现miRNA是通过调控靶基因(mRNA)的表达,进而行使其生物学功能。然而,经生物实验验证的靶基因数量较少。因此,很多基于靶基因来预测疾病相关的miRNA方法很难达到理想的预测效果。目前,大多数预测与疾病相关的miRNA的方法都基于这样一个生物前提,miRNA功能越相似其所关联的疾病就越相似,反之亦然。这些方