因素空间理论下的数据离散化和分类算法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:li1xiang125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量的数据中蕴含着大量的信息,研究人员致力于从海量的数据中提取出有价值的、隐藏的且精简的规则,使其能够用来指导生产实践,形成人工智能决策。知识挖掘已经成为人工智能技术中的一个重要研究领域,经过几十年的研究,知识挖掘理论与应用在发展的同时也面临着极大的挑战,如知识挖掘技术未与特定的应用形成强有力的结合,与特定数据类型存在着适应问题,效率与可解释性不能达到很好的平衡等。以基础创新理论为核心的知识挖掘算法可以解决很多国际前沿与热点问题,是人工智能持续发展的保证。因素空间是机制主义人工智能理论的数学基础,它是为迎接人工智能的深刻革命而作的数学准备。本文以因素空间理论为基础,旨在解决知识挖掘面临的挑战和问题,针对知识挖掘中的数据预处理阶段和分类任务做了如下研究:(1)提出基于因素表达强度的动态离散化算法解决数据多样性问题。给出一个集合划分的新度量——表达强度,用于刻画条件因素对结果因素的表达能力,提出一种动态的离散化算法。为了减少离散化过程的复杂度,采取了朴素的启发式来减少候选断点集中的元素,最后通过实验对数据在离散化前后的分类性能比较。实验结果表明:本文提出的离散化算法通过事先离散化明显提高了分类算法的学习性能,同时也说明本文提出的离散化算法较各分类算法内置的离散化策略更优。(2)提出基于因素完整度的分类算法解决数据完备性不足等问题。提出因素完整度的概念,用于度量因素刻画概念的能力,并基于此提出完整度划分算法用于分类任务,并通过一个算例来解释算法步骤,进一步为了算法能够适用复杂的背景关系和提高应对噪声数据的能力,对其进行适应性改进,最后在多个分类数据集上进行数据实验,与经典分类方法进行对比分析。实验结果表明:样本数据往往不具有完备性且带有噪声数据,对IDA算法适应性改进后,学习准确率和学习效率较IDA算法都有所提高。通过实验对比发现,AAIDA在学习效率和学习性能上较其他分类算法均表现更佳。本文提出的表达强度是一个因素空间理论下集合划分的新度量,能够刻画条件因素对结果因素的表达能力,用于离散化明显提高了分类算法的学习性能,解决了数据多样性导致算法的适用性问题。因素完整度用于度量因素刻画概念的能力,作为完整度划分算法的因素度量准则,能够得到更简洁、高效的知识规则,解决了数据不完备和携带噪声导致的无法识别和错误识别问题。该论文有图16幅,表20个,参考文献59篇。
其他文献
针对卷积神经网络浅层提取的特征利用率低,高低层特征互补优势难以利用的问题,提出了选择性特征连接机制(Selective Feature Connection Mechanism,SFCM)融合卷积神经网络高低层特征的方法以提高图像识别精度。首先,选定卷积神经网络低层特征,通过平均池化对低层特征降维,输出携带较多细节信息的低层特征;其次,按照卷积神经网络高层特征元素值越大,它所对应的位置特征越关键的
方面级情感分析(Aspect-based Sentiment Analysis,ABSA)作为一种细粒度的情感分析方法,可以对文本特定目标进行相应的情感倾向判定。针对现有基于注意力机制的方面级情感分析方法多关注词的相对位置特征,忽略上下文绝对位置特征的问题,本文提出了一种基于门控卷积神经网络的方面级情感分析模型Pos ATT-GTRU-ABSA。首先,模型使用Laplacian核函数构建相对位置特
音乐流派分类领域中音频特征的流派性表达、特征提取的设计,严重影响分类方法的精度和泛化性,因此提出一种将双注意力融合进行特征提取的深度卷积神经网络(DCNN-AFC)模型,并对音频功率谱图中特征的流派性表达进行增强。首先,为考虑音频功率谱图中音乐流派特征的多样性,在特征提取阶段采用梅尔滤波方法,以模拟人耳听觉系统的滤波器对音频信号进行有效过滤,通过对梅尔滤波后的信号进行维度还原,确保音频信号的流派特
处于电力系统最末端的配电网络是对电能进行分配的重要环节之一,近年来,随着接入配电网的负荷不断增加,配电网结构越加复杂,对配电网络的可靠性的要求也不断提高。采用小电流接地系统的配电网络在发生单相接地故障后虽然可以带故障运行1~2小时,但若不能及时准确确定故障线路故障点,极有可能会引起相间短路,给系统运行带来了极大的安全隐患。实现配电网络快速、准确的故障定位,对整个电力系统安全稳定运行具有十分重要的意
时间序列预测应用于现实世界的方方面面,对时间序列中未来数据的准确预测需要捕获具有代表性的序列特征,而传统的时间序列预测模型对非平稳时间序列预测误差较大,机器学习相关的时间序列预测模型存在预测滞后现象。针对上述问题,提出一种基于CEEMDAN与深度学习的时间序列预测模型。首先将时间序列通过CEEMDAN算法分解为代表不同时间尺度的本征模态函数序列,然后对每一路分解结果使用同比检验策略确定最佳滑动窗口
智能优化算法是以自然界中基本理论或数学模型为基础的一类重要启发式算法,具有对初始条件不敏感、操作简单易于理解且无需限定目标函数等优势,其已成为解决复杂优化问题的有效技术手段,并在优化机器学习算法的应用中凸显高效性和优越性。但智能优化算法通常存在初始化随机性强、局部优化差、关键参数设置固化等劣势,易导致算法逃逸局部极值性能偏弱,全局探索与局部搜索能力平衡性偏差的情况发生。因此,基于最优化理论与机器学
在图像分类领域,深度神经网络已经取得了优异的性能,但训练过程中需要强大算力的图像处理器作为支撑,而且训练的分类模型往往占用较大的内存。随着物联网设备的蓬勃发展,深度神经网络模型越来越需要部署在计算资源有限的小型智能设备上。因此,在嵌入式设备或手机终端上部署性能优良且轻量的网络模型成为研究的热点。针对当前深度学习解决方案在图像分类上大多无法同时兼顾模型的轻量化与准确率。提出一种轻量化的卷积神经网络架
对于核磁共振图像(MRI)、高光谱图像(HSI)和视频序列这样的三维图像,卷积神经网络(CNN)分类时不得不依赖更加复杂的网络结构,且精度提升有限。另外,MRI和HSI具有结构复杂、可用数据量少和空间信息丰富等特点,相比于视频序列图像,不存在通道间的时序性。CNN对此类图像分类存在训练样本少、特征提取不足等问题。目前基于多尺度方法的深度神经网络在图像分类中已经展现出了出色的能力;同时胶囊神经网络凭
随着港口地位的提升,港口物流依托港口的口岸优势,在港口贸易中发挥着不可替代的作用。我国港口为建设自身港口物流,使得沿海港口群的物流发展呈现出不均衡的状况,环渤海港口就是其中之一。一方面,环渤海各港口物流发展受港口资源限制,港口间经常出现竞争;另一方面,在港口建设时出现了定位不清、重复建设等问题,阻碍环渤海港口物流的发展。只有明确各港口之间的竞争优势,才能促进环渤海港口物流的良好发展;同时环渤海物流
遥感影像的语义分割作为遥感影像处理领域的重要研究方向,在土地资源管理、军事目标识别等领域有着广泛的应用。目前基于传统神经网络的语义分割模型不能对遥感影像中的小物体进行更高维度的特征提取,导致分割的错误率较高,分割精度偏低。针对以上问题,提出一种超像素与transformer模型结合的方法对遥感影像进行分割。首先,采用参数网格搜索法,把每种可选参数进行排列组合,使用最小化分割误差为核心的评价方法,把