面向部分标记混合数据的特征选择算法研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:yuanrang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、人工智能等信息技术的发展,数据的数量和维度呈几何式增长,数据的高维性降低了各种机器学习算法的运行效率并且影响分类器的分类性能。特征选择作为数据预处理的有效方法之一,能够从数据中去除不相关和冗余的特征,以降低数据维度,提高数据的紧密度以及后续机器学习算法的性能。粗糙集理论作为粒计算的一种重要理论,已成为特征选择、知识发现和数据挖掘等领域的热点研究工作。现实应用中,数据的形式复杂多样。大部分数据都是由符号型、数值型和缺失型特征构成的混合数据。同时,由于获取全部数据的决策标记通常是昂贵的,仅有一小部分对象被添加决策标记,因此产生了部分标记混合数据。然而,当面对大量决策标记缺失和动态变化的部分标记混合数据,现有基于粗糙集理论的特征选择算法通常需要进行大量重复计算,耗费较多的运行时间,决策标记的缺失甚至会影响特征子集分类精度。为了解决这些问题,本文以粗糙集理论为基础,针对部分标记混合数据开展增量式特征选择和决策填补等方面的研究。本文主要研究工作如下:(1)针对部分标记混合数据中对象集的动态变化,通过分析局部数据邻域粒度的变化情况,提出了信息粒度的增量更新机制。在此基础上,依次设计部分标记混合数据中单个对象动态变化和一组对象动态变化时的增量式特征选择算法。一系列真实数据集上的对比实验,验证了所提算法的有效性和高效性,且组增量特征选择算法更加高效。(2)针对部分标记混合数据中特征集的动态增加和删减,通过分析数据集中邻域粒度的变化情况,结合增量学习思想,建立信息粒度的增量更新机制。在此基础上,依次设计部分标记混合数据中特征集增加、删除时的增量式特征选择算法。通过理论分析和真实数据集上的对比实验,验证了所提算法的有效性和高效性。(3)由于决策标记蕴含丰富的信息,大量的未标记对象可能会降低特征选择结果的分类精度。因此,提出了一种基于扩展邻域粒度的决策填补算法,利用标记对象对未标记对象的部分决策进行标注,从而提高所选特征子集的分类精度。同时,针对部分标记混合数据,设计了扩展的信息增益的特征度量,在此基础上,提出了一种基于信息增益的半监督特征选择算法。在部分标记混合数据上的实验结果表明了所提算法的有效性。(4)针对有序数据集中单一特征度量在现有的特征选择算法中面临的不足,提出一种基于优势粗糙集理论的多准则特征度量。从代数论与信息论角度出发,同时分析数据的确定性信息与可辨别信息,并设计基于贪心向前搜索的特征选择算法。理论分析与相关的实验结果验证了算法的有效性和高效性。
其他文献
在公共建筑中,空调系统能耗是建筑能耗的主要组成部分,促进空调系统的节能运行是实现建筑节能的重要环节。气候作为影响空调系统能耗的重要因素之一,不仅影响着末端空气处理过程,还制约着空调冷热源方案的选择。热带草原气候分布于南北纬10°~20°之间,主要包括东非高原以及澳大利亚南、北部等地区,具有全年高温、干湿季明显的气候特点,独特的气候特点使该气候区空调系统设计具有不同于国内传统空调系统的特征。本文以位
学位
农村垃圾分类作为生态文明建设和乡村振兴推进过程中的重要一环,深化农村垃圾分类实践情况研究,提高其处理效率是亟需解决的问题。本文基于农村居民视角下,借助结构方程构建农村垃圾分类服务满意度模型,探索多元治理主体和数字化技术应用对垃圾分类满意度的影响关系。结果表明:信息服务对满意度的影响最为显著,设施服务次之,人际服务最不明显。基于研究结果提出需提高农村垃圾分类服务中人际服务质量、重视数字平台的应用与优
期刊
当前的电网DICP系统可靠性评估方法无法获取信道干扰项和损耗,导致评估结果准确性偏低。为此,提出蒙特卡洛模拟下的电网DICP系统可靠性评估方法。将电网DICP系统可靠性与电力数据传输模型相结合,分析蒙特卡洛模拟下信道干扰项和损耗对电网DICP系统可靠性的影响,通过计算电力数据在两个传输节点之间的链路分组丢失率,建立DICP系统信道模型。利用电网DICP系统的网络模型示意图,合理规划电网的边权重,形
期刊
对于整个PPP项目而言,付费机制的统一是政府与社会资本方合作的基石,是其中最为重要的一环。本文结合《企业会计准则解释第14号》、最新税收政策以及付费机制的内涵,通过案例对不同付费机制模式下PPP项目的财税处理展开探讨,进而提出完善PPP项目付费机制的政策建议。
期刊
核电厂数字化仪控系统作为核电厂“中枢神经”,其可靠性决定了核电厂是否能安全稳定运行。在使用马尔可夫法针对核电厂数字化仪控系统进行可靠性建模分析时,往往由于系统过于复杂、状态交互关系较多,出现组合爆炸的情况,使得模型难以构建。本文提出了一种应用于复杂系统的马尔可夫模型简化方法,通过对马尔可夫模型中的状态进行检测,筛选出具有相同转移率的状态后组成简化状态组,将简化状态组中的成员进行合并简化。进一步地,
期刊
随着大数据时代的发展,信息资源日益丰富,信息过载现象也愈加严重。在时代背景驱动下,推荐系统应运而生。传统推荐算法在解决数据稀疏和冷启动等问题上仍然存在不足,社交网络因其丰富的数据资源,与推荐系统结合能够有效助力提升推荐性能。因此,基于社交推荐的研究逐渐成为热点。现有的社交推荐方法尽管取得了一定的进展,但在充分利用社交网络信息方面仍然存在很大的不足。大多数模型通常仅考虑用户社交网络的局部邻域影响,或
学位
随着人体运动捕捉(MoCap)数据采集在不同场景和应用中的需求,对MoCap数据的有效分割和分割后的动作类型的识别判断已然成为了进一步进行人体运动姿态和行为分析的关键问题,同时这在算法设计中也需要考虑鲁棒性和计算效率。本文提出了一种基于各个肢体的骨段夹角、身体结构特征和自回归移动平均(ARMA)模型拟合的无监督分割算法。将收集到的MoCap数据转换为人体肢体骨段和脊柱中心骨段形成的夹角序列。利用A
学位
醛类化合物与无机硫反应产生的有机硫化物(SCs)是二次有机气溶胶(SOA)的主要组分和重要示踪剂,同时也是大气中硫的重要储存库。SCs具有一定的毒性,会危害人类身体健康;此外,SCs具有较强的吸光能力,能够降低大气可见度,加重雾霾污染,影响空气质量。因此对于SCs的组分鉴定和形成机理研究已成为环境分析化学领域的热点和重点。本文利用烟雾腔系统和水相反应装置,模拟乙二醛与无机硫的大气化学反应过程,采用
学位
建筑能耗在国民经济总能耗中占据较大的比重,外遮阳对建筑能耗有重要影响。外遮阳有多种型式:遮阳板、遮阳百叶、遮阳卷帘、遮阳格栅、户外天篷帘以及玻璃涂层等。在借鉴国内外已有技术的基础上,本研究立足寒冷地区的气候条件,结合当地建筑构造特点,研究提出我国北方寒冷地区外遮阳对建筑能耗的具体量化影响程度。这对于实现建筑领域的“双碳目标”,营造舒适健康的室内环境,提高工作效率具有重要意义。作者在阐述建筑外遮阳的
学位
当前,全球粮食市场的风险和不确定性显著增加,给我国的粮食生产带来巨大挑战。我国目前食品消费构成有一半以上是非口粮类食物,主要包括肉、蛋、奶及油等等,其生产和转化,均离不开大豆。所以,新时代的粮食安全不仅要保障主食粮食安全,也要努力保障大豆安全。目前,国内大豆储藏多为浅圆仓储藏。大豆自流入库后自动分级现象严重,导致粮堆内部孔隙率分布不均,进而造成粮堆局部温度偏高,不利于粮食的长期储存。为了缓解粮食进
学位