基于局部相似性的多类Boosting分类方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:kangzeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多分类技术在各个领域应用广泛,可用于搜索引擎的分类、诊断疾病的分类、交通车辆的分类等多个领域。这些广泛的应用使得多分类技术成为了人工智能领域研究的热点内容之一。传统的分类技术通常是通过已有的训练集进行训练,产生多个分类模型,再用测试集对分类模型进行一一测试,性能最好的模型作为最终的分类模型。但是单一的分类模型会出现过拟合现象,而且存在训练速度慢、分类准确率低等问题。针对传统分类技术过拟合现象和分类准确率低的问题,提出了一种基于局部相似性的多类Boosting分类方法。主要研究内容包括:(1)针对传统的弱学习器,训练速度慢,分类准确率低等问题,对弱学习器进行改进,提出了单模态的局部相似性分类方法。在单模态多类Boosting中,常用决策树作为弱学习器。由于决策树的分类边界是轴对称的,不能很好的代表数据的具体分类情况。另外,虽然使用决策树可以达到完美的训练精度,但是很明显会出现严重的过拟合现象。因此,需要找到一种简单而准确的训练系统,使得训练速度快,数据量少。为此,提出了单模态局部相似性(SLS)的多类Boosting分类方法。该方法在Boosting分类方法的基础上,以局部相似性作为弱学习器。并在500个点的二维合成数据集上进行了收敛性实验,由实验结果可以得出结论:即使训练错误降低到零,测试错误也不会增加。最后在UCI真实数据集上进行了实验,实验结果表明,随着迭代次数的增加,测试错误在达到最小值时是相当稳定的。(2)针对多类Boosting分类准确率低和模态单一等问题,本文在使用局部相似性作为弱学习器的简单多类增强框架的基础上,将其推广到多模态多类增强Boosting(LS)。首先,在局部相似性作为弱学习器的基础上,利用损失函数求出基本损失,对数据点进行二值化处理。然后,找到最优的局部相似点,使用损失函数求出对应的损失,与基本损失相比较,较小的作为迄今为止最好的。其次,由欧几里得距离计算两点的局部相似度,再由两点的局部相似度计算损失。最后,对于分类预测的结果,使文本和图像互相检索,分别获得文本和图像的检索准确率。本文进行的实验是在Wiki和NUS-WIDE数据集上进行的实验,并与几种同类型方法进行对比。实验结果表明,以局部性相似性作为弱学习器的多模态多类增强框架LS,不仅在很大程度上稳定的提高了分类的准确率,而且可以有效的应用于跨模态交叉检索。
其他文献
近年来,随着智能教育的发展,互联网在线教育平台应运而生,打破了传统课堂的时空限制,实现教育资源共享。越来越多学生选择在线教育平台进行辅助学习,积累了大量的学生学习数据,这些数据蕴含了丰富的信息和价值,为实现知识追踪等教育研究任务提供有力的支撑。知识追踪任务是通过对学生学习数据进行建模追踪学生知识状态的变化,旨在掌握学生的学习水平、知识状态等,从而为学生制定个性化学习方案,提升学生学习效率。因此,如
学位
隐私集合交集是信息安全的重要研究内容,在测量广告转化率、指纹匹配、僵尸网络检测、人类基因组测试以及社交网络等领域有着广泛的应用。隐私集合交集允许多个参与方共同计算并得到各自拥有集合的交集,同时不泄露各方的隐私信息。然而,现存的隐私集合交集协议运行效率低下,并不适用于计算能力薄弱的便携式设备。此外,在多方隐私集合交集中,被腐败的参与方之间的合谋将导致整个协议无法执行或诚实的参与方得到错误的结果。针对
学位
随着互联网的高速发展,使用互联网的人数也呈几何式增长,人们也越来越习惯依靠互联网进行信息传递,这也导致大量的数据信息流入互联网,其中也不乏一些机密信息例如病人的CT图像、商业秘密甚至于军事机密。图像则是信息传递与存储的一个最重要的载体,已经被广泛应用于日常生活以及商业、医学、军事等方面,图像中往往会隐含着大量的隐私以及其他秘密信息,那么为了确保隐私与其他秘密信息不被非法窃取图像的安全问题亟须得到保
学位
现实工程应用中所产生的数据集包含了大量难以处理的特征,这增加了数据挖掘的计算开销并降低了分类的准确性,尤其是高维数据集。特征选择是消除数据集中多余和嘈杂特征的一种简单有效的方法。传统的特征选择方法往往会随着搜索空间的扩大,计算量随之增大而导致计算复杂度增加。而基于启发式搜索策略的特征选择模型及算法计算效率高,在解决特征选择优化问题上表现出优越的性能,已引起了广大学者的关注和研究。相比遗传算法、粒子
学位
计算机的快速发展为多媒体数据的分享传播带来了空前便利,但与此同时也带来了很大的风险跟隐患,如未经授权作品的传播,不仅给作品版权拥有者造成了版权侵害以及财产损失,也阻碍了多媒体版权行业的发展,版权保护在这个数据传播方便且迅速的环境下显得尤为重要。信息隐藏技术在数字签名、版权保护、篡改检测等方面具有非常重要的作用,通过将一些具有标识性的信息嵌入在多媒体数据中,在必要的时候进行提取来证明。作为信息隐藏领
学位
在某些实际的应用场景中,如深空通信、野生动物追踪等场景中,通常不存在端到端的可靠连通链路,导致传统网络无法有效运行,因此对移动机会网络的研究引起了科研人员的广泛关注。移动机会网络无需依靠固定的基础设施即可实现通信,对拓扑时变性、节点资源受限性和密度稀疏性具有较强的适应力。其采用“存储-携带-转发”方式进行数据传输,在整个数据传输的过程中未事先确定转发路径,动态选择每一跳转发节点。通常在经历多跳节点
学位
近年来,深度神经网络凭借着端到端建模、自适应特征提取等特点,被成功应用于轴承故障诊断问题。但是,深度学习技术较依赖于训练数据量,而在实际工程应用中,受各种因素制约,常常出现故障数据量不足、缺乏对数据的有效标定等现象,易产生较大的模型偏差,降低诊断结果的准确性和稳定性,严重制约了深度学习技术在轴承故障诊断中的应用效果。针对上述问题,本文将深度迁移学习技术引入上述轴承故障诊断问题,研究利用不同工况下的
学位
目的:1.初步探究胃充盈超声筛查胃癌可行性。2.以术后病理为标准,比较胃充盈超声与增强CT胃癌术前T分期的诊断准确性。方法:1.前瞻性纳入接受胃充盈超声检查并于一周内行胃镜检查的228例胃部不适患者,测量胃底、胃体、胃窦前壁处全层胃壁厚度,选取最厚全层胃壁分析。根据患者主诉、年龄等综合赋分。将上皮内瘤变、胃癌、淋巴瘤等归类为高危级别疾病。分析胃充盈超声与胃镜检出高危级别疾病的一致性;以及全层胃壁厚
学位
肿瘤是人类健康的一大威胁,肿瘤的发生是由于基因的异常表达,而基于微阵列技术的基因表达谱可近似反映基因的表达情况。但基因表达数据中绝大多数基因与肿瘤发病无关。因此,本文基于基因表达数据,致力于模糊邻域粗糙集基因选择方法的研究,为肿瘤的发病预测及诊断提供了新的方法。主要研究内容如下:(1)针对现有方法在肿瘤分类过程中未考虑样本的邻域与决策等价类存在不完全包含,从而导致肿瘤分类精度不高的问题,引入参数化
学位
移动边缘计算(Mobile Edge Computing,MEC)为无线接入网络提供边缘计算能力,满足物联网(Internet of Things,Io T)高可靠性、低时延等服务需求。将服务卸载到边缘服务器可以缓解存储和计算的限制,并延长物联网设备的寿命。然而,由于存在大量的物联网设备,MEC中的联合资源分配面临着可扩展性问题。同时,由于单个边缘服务器的计算和存储资源有限,导致用户的体验质量较差
学位