分类模型的不匹配问题及其解决方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mikezhai128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机软硬件技术的不断发展,大量的数据得以收集。与此同时,原有的数据处理及分析技术面临着越来越多的挑战。分类是机器学习和数据挖掘的一项基本任务,如何构建泛化能力更强的分类器一直是计算机领域的热点问题。大多数分类技术都是基于一定的假设建立模型的。当数据匹配模型时,分类效果会很好;而当不匹配时,分类的效果往往会很差。如何解决分类模型的不匹配问题是本文的核心议题。概括来讲,本文的主要工作包括以下几个方面:1)介绍了一种新的解决复杂、高维数据的基于聚类的分类方法(Decision Cluster Classifier,DCC),通过分析指出其在特征异构时会导致模型不匹配的问题,并提出了一种新的基于路径的分类策略PDCC以解决DCC的模型不匹配问题。2)提出了一种新的决策树构建方法以用来集成随机森林。一般来讲,决策树容易产生过拟合现象,这也是一种比较特殊的模型不匹配问题。目前,用来解决这一问题的主要方法是通过集成多棵随机决策树的方式来构建集成分类器。但现有方法存在效率低下,差异性难以控制等问题。本文提出了一种新的基于专属随机决策树的随机森林算法,以有效解决多类数据中决策树的模型不匹配问题。3)提出了一种新的半监督分类算法以解决聚类标记(Cluster-and-Label)的模型不匹配问题。半监督分类一般基于一定的假设运行,其中聚类假设是一个最常用的假设。聚类标记法可以简单看作直接基于聚类假设运行的一类半监督学习技术,但它的性能受到聚类质量的严重制约。本文则提出一种层次聚类树的技术以解决这一问题。
其他文献
积累了两千多年的中医药数据文献是一个价值连城的知识宝库。将中医药数据结构化的收录到信息系统中,对中医药数据的分析,处理,利用有着至关重要的作用。十多年来CCNT实验室
Ad hoc网络,作为一种特殊的无线网络,具有多跳、自组织、无中心等特点。由于Ad hoc网络组网快捷、灵活,且不受固定基站束缚,使它十分适用于军事或一些紧急场合的应用。例如,
交通网数据库是在空间数据库、时空数据库基础上研究在受限环境中运动的移动对象,其核心内容为交通网建模,交通网移动对象建模,索引,查询等问题,目的在于为智能交通提供一个
随着宽带网络和数据存储技术提高,数字图像的数量急剧的增加。如何快速有效从图像数据库中的找到所需的图像已经成为多媒体技术发展的关键。同时,针对大量存在的压缩格式的文
随着计算机技术、网络技术以及无线传感器网络技术的迅猛发展和广泛应用,敏感信息泄密事件时有发生,面临的信息安全问题也越来越严重。目前,政府各个部门、国防单位、军队、
无线传感器网络(Wireless Sensor Networks,WSNs)是一种综合了无线传输技术和传感器技术为一体的网络系统。系统中多节点自组织的动态形成网络拓扑结构,微传感器以协作的方式
随着移动智能时代的到来,以移动电话为主的移动智能终端已经超越传统PC(Personal Computer),成为最受欢迎的移动计算智能设备。但是同时,在各种利益的驱使下,黑客和恶意病毒
随着信息技术的发展以及经济全球化进程的加快,新产品的更新换代也就越来越快。如何提升企业的市场竞争力,高效的产品设计就是关键。知识管理系统可以使设计人员在设计过程中
随着互联网的发展和广泛应用,网络安全问题也日益严重。在众多的网络安全技术中,防火墙是其中主要的一种。但传统防火墙是被动的,即只能对网络的流量进行控制,对已经感染的软
多尺度函数与多小波由于在高压缩比的系数量化上提供了较单小波更大的灵活性与稀疏性能,在图像压缩领域得到重视,且将多小波运用到了三维视频图像编码中,目前,三维多小波视频