基于增量条件熵的不完备数据特征约简方法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:l541306072
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新兴信息技术的高速发展,数据存储的规模表现出前所未有的增长速度。大数据环境下的数据不仅仅表现出数据规模急剧膨胀,同时也呈现出数据质量低下、价值密度稀疏的鲜明特征。此外,数据随时间的推移产生得快,变化得快,折旧得也快,数据流已成为大数据环境中一种主流的数据存在形式。因此,对大数据的采集及分析应是一个不断优化、持续更新的增量优化过程。海量高维、动态低质的数据导致数据挖掘与知识发现算法所需要的计算代价和存储资源呈指数级增长。特征约简作为一种重要的数据处理技术,其目的在于从高维数据提取能够反映原始数据特性的低维表示,已成为机器学习与模式识别等领域广泛关注的热点问题。大数据环境下数据所表现出的动态更新、质量低下等特性给特征约简问题带了新的挑战,成为了当前该领域中一项紧迫又重要的研究课题。粗糙集理论是一种能够有效的处理不一致、不精确信息的数据建模与知识获取工具,已被广泛应用于机器学习、数据挖掘等领域中。粗糙集理论能够更客观的处理问题,因为其只依据数据集中所携带的信息处理问题,而不需要数据集之外的任何先验信息。作为不确定信息的量化度量方式,信息熵可以有效度量特征的不确定性,此外还能对特征之间的相关或依赖程度进行准确刻画。因此,本文主要研究面向不完备数据的动态特征约简方法,粗糙集和信息熵理论为本文的研究提供了重要的理论支撑。本文以相容和邻域粗糙集模型作为特征约简的理论框架,以动态不完备数据的不同变化情形作为研究主线,将增量学习技术引入到动态不完备数据的特征约简问题中,提出不完备数据下最优特征子集的动态求解方法,发展了若干基于增量条件信息熵的高效特征约简算法,为动态不完备数据中的数据建模与分析挖掘提供了新的理论方法与处理技巧。本文在面向不完备数据的动态特征约简方法研究中主要取得以下的研究成果。(1)针对不完备数据中样本集动态增长情况,刻画了特征空间上相容类与标签空间上决策等价类的动态更新模式,建立了条件熵的增量计算机制,将该机制引入到启发式特征约简方法中特征重要度的迭代计算过程,并提出了不完备数据中面向样本集规模动态增长的增量特征约简算法。实验证明了提出的增量算法是一种可行且高效的特征约简方法。(2)针对不完备数据中特征值动态更新问题,刻画了不完备决策系统中论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容条件熵的增量计算机制,并将该机制引入到启发式特征约简方法中特征重要度的迭代计算过程,进一步设计了不完备数据中基于动态特征值域的增量特征约简算法。实验结果表明算法能有效、高效的处理特征值动态更新问题。(3)针对同时含有名义型和数值型特征的不完备混合数据,刻画了样本集动态增长时特征空间上邻域容差类与标签空间上决策等价类的动态更新模式,建立了邻域容差信息熵、联合熵、以及条件熵的增量更新机制,并将该机制引入到启发式特征约简方法中特征重要度的迭代计算过程,进而设计了不完备混合数据中面向样本规模动态增长时的增量特征约简算法。实验结果证明了所提出算法的可行性、高效性。
其他文献
电子计算机断层扫描(CT)技术可快速获取人体组织结构图像,得到的图像具有极高的空间分辨率以及清晰度。CT技术目前已经成为临床诊断的重要方式,为临床医生对疾病诊断和治疗提供了强有力的帮助。随着CT技术的广泛使用,检测时产生的辐射对受检者所造成的伤害不容忽视,过量CT辐射将严重损害受检者的身体健康。但是,降低CT检测的辐射剂量会导致CT图像出现噪声、伪影,引起图像质量下降。这些噪声、伪影经常掩盖细微但
近年来慢性非传染性疾病对人类健康的威胁日益增大。各类慢性病因其复杂的发病过程,很难确定疾病的发病时间。慢性病的早期筛查和确诊是公认的降低慢性病危害的有效办法,只有通过定期的体检来尽早发现诊断慢性病。伴随医疗信息化的建设不断深入,大部分医疗机构已经存有大量医疗健康数据。在这个前提下,逐渐成熟的人工智能技术为慢性病早期的筛查和诊断提供了有力的工具。近年来,针对各类慢性的研究逐渐增多。本文以体检数据为研
信息化技术和互联网的快速发展正深刻地影响着人民的生产与生活方式,我国社会正逐步朝着信息化社会迈进。根据第47次《中国互联网络发展状况统计报告》[1],截止2020年底我国的互联网普及率已达70.4%,人民的生产和生活与网络紧密相关。然而,在人们享受信息化与智能化所带来的便利同时,网络空间中所存在的安全问题是无法被忽视的。《2019年我国互联网网络安全态势综述》[2]中的统计数据显示,约有44.4%
针对公共场所中的特定事件的自动检测技术是保障公共安全的重要手段之一,也是推动社会智能化发展的重要技术之一。时空行为检测(Spatiotemporal Action Detection,STAD)就是在此需求下应运而生的自动化检测技术,常用于检测视频中特定的行为及其发生时所在的时空位置。时空行为检测中,用于检测如学校、监狱等特殊场所中打架斗殴等暴力事件的暴力行为检测(Violence Detecti
作为物联网技术中的重要组成部分,无线传感器网络技术已广泛运用于各领域。然而,传感器节点有限的电池容量制约了无线传感器网络的工作寿命。一旦传感器节点电池能量耗尽,会影响某区域的监控质量。因此,如何克服该约束并延长整个网络的寿命是一个研究的热点问题。当前,无线充电被视为延长网络寿命的一种有前途的解决方案。传统的无线充电技术是基于单路的充电范式。然而,这种一对一的充电范式存在扩展性不足和充电效率低下等问
来波方向估计(DOA)在电子侦察对抗、无线电频谱监测、移动通信、雷达、声呐等领域都扮演着非常重要的角色,是阵列信号处理方向中一个重要分支。在目前通信环境中,存在大阵列需求,在大阵列系统中,将会给传统来波方向估计算法带来巨大的挑战,面临着运算量大以及高精度取舍等问题。传统来波方向估计算法在实际环境的适应性较差,因为该类算法是基于数学表达式的一种算法,需要对环境做很多假设,当实际环境难以达到目标条件,
随着信息技术的高速发展,目标跟踪技术在军事和民用领域都展现出了不可取代的重要性。而在目标跟踪的过程中,无法避免地,处理程序会接收到错误的报告点信息或是误差较大的报告点信息,即杂波。这无疑会使处理程序得到错误的跟踪结果,造成虚警、漏警等常见问题。针对这些问题,相关领域的研究人员提出了一些有一定适用性的解决办法,但在复杂场景下,由于杂波种类繁多,计算机性能有限等各种问题,导致目前常用的杂波识别算法不能
随着汽车保有量快速增长,随之而来的交通问题也日趋严重。自动驾驶作为一个有前景的解决方案,在迫切的社会需求和高度发展的人工智能技术共同催化下快速成长。近年来,强化学习在不同的控制决策任务中表现优异,已有研究将强化学习算法用于汽车自动驾驶控制,通过智能体与环境交互,并根据环境的反馈进行驾驶策略的学习。柔性演员评论家(Soft Actor-Critic,SAC)算法作为新颖的强化学习算法,引入了最大熵的
李清照是我国宋代的著名词人,作为艺术史上的一个重要人物,李清照作为婉约派词人的代表身份是不容置疑的,而在李清照跌宕起伏的一生中,多种因素也导致了她的诗词具有了豪放的一面。绕过李清照所擅长的婉约词,来探究李清照在婉约风格背后的豪放。通过李清照本人生平与其文本的共同分析,探究李清照在豪放词背后所表现出的个人性格以及时代特征。
网络嵌入,又称为网络表示学习,目标是为网络中的节点学习低维的向量表示。学习到的向量表示可以用于各种网络分析任务,例如节点分类、链接预测、节点聚类、网络对齐等。近年来,随着大量网络数据的产生,网络嵌入受到了越来越多的关注。根据学习节点表示时利用的网络数量,网络嵌入可以大致分为两类:单一网络情境下的网络嵌入与多网络情境下的网络嵌入。尽管已经有许多研究人员分别针对单一网络情境下的网络嵌入以及多网络情境下