基于自信息测度和熵度量的特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:hsmk888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来信息技术蓬勃发展,随之而来的是数据量暴增。在日常生产生活中,越来越多的数据被获取并存储。然而一些数据对于分类任务来说是不相关或冗余的,且这些冗余数据对做出正确的决策会产生影响。因此,如何有效地处理冗余数据已然迫在眉睫。虽然特征选择方法已被广泛应用,但大多数的特征选择算法仅考虑决策下近似所包含的分类信息,忽略了决策分歧的样本所提供的分类信息,从而可能导致部分信息的丢失。本研究以模糊邻域粗糙集模型和邻域多粒度粗糙集模型为背景,利用决策的上、下近似构造相应的自信息测度,然后引入信息熵构建相应的特征选择模型,同时从代数观点和信息论观点进行不确定性度量,经过理论证明和实验对比分析,验证了本文所研究方法的有效性。本研究的主要内容如下:(1)为解决经典特征选择算法仅考虑决策下近似所包含的信息从而导致部分分类信息丢失、以及多数特征选择方法仅基于代数观点或信息论观点单角度来构建属性重要度的问题,提出了一种基于自信息测度和熵度量的模糊邻域粗糙集特征选择方法。首先,为了克服传统特征选择算法忽略决策上近似所包含分类信息的问题,利用模糊邻域粗糙集的上、下近似并引入自信息的概念构造决策变量的四种自信息不确定性度量,通过理论分析知第四种测度——包容模糊邻域自信息测度具有较好的分类性能。然后,同时受代数观点和信息论观点的启发,设计了一种基于模糊邻域自信息测度的模糊邻域联合熵的特征选择方法,以排除冗余特征,进而获取具有最强分类能力的特征子集。在10个公开数据集上的实验表明,所提算法能有效地选出重要特征,且具有较高的分类准确率。(2)在工作(1)的基础上,为降低不完备决策系统中的噪声,设计了一种基于自信息测度和熵度量的邻域多粒度粗糙集特征选择方法。首先,从代数观出发,将自信息的概念引入到邻域多粒度粗糙集模型的上、下近似构造决策变量的四种邻域多粒度自信息测度,并讨论其相关性质,进而发现第四种测度——包容邻域多粒度自信息测度具有较好的分类性能。然后,同时受代数观点和信息论观点的启发,构造基于邻域多粒度自信息测度的悲观邻域多粒化容差联合熵的特征选择方法,用于处理不完备信息系统中的噪声和不确定性,进而选取最优的特征子集。在11个公开数据集上的实验表明,该算法能有效地选取对分类信息敏感的特征,且具有较高的分类准确率。
其他文献
随着对图像、视频、音频等多媒体大数据的应用,信息泄露、数据篡改、版权侵犯等问题也随之出现,信息安全成为当代社会面临的一大难题。图像作为最典型的多媒体之一,其安全性已成为开放网络环境下面临的主要问题。例如网络用户发布的作品很容易遭到恶意攻击或者篡改,或被其他网络用户复制粘贴后再次使用,侵犯作品发布者的版权。水印技术和集中式版权管理系统在一定程度上可以版权保护,但是这种方案在保护载体图像版权时可能会遭
学位
药物作为诊断、预防和治疗疾病的关键手段,其重要性不言而喻。传统的药物研发的实验周期长、投入成本高、成功率低等弊端使得其不能适应现代药物研发的需求,逐渐被计算机辅助药物设计方法所取代。作为药物研发的基础和关键,药物-靶标相互作用(Drug-Target Interactions,DTI)关系的预测尤为重要。因此,开发可靠的算法进行DTI预测已经成为了计算机和药物研发两个领域重点研究方向。当下新冠肺炎
学位
黎雄才,二十世纪著名的国画家、美术教育家,师从高剑父,是岭南画派第二代传承者中的代表画家,也是岭南画派思想坚定的“践行者”。在绘画上精通花鸟,尤善山水,笔墨雄健,气势浑厚,尤以巨幅见长,因画风清新别具一格又有“黎家山水”之誉。终生贯彻“折衷中西,融会古今”的艺术革新使命,早年苦学传统,后留学日本,归国后将所学的传统笔墨与日本朦胧体技法及西画透视理念相结合,以写生为手段,在大量的写生中实现古今中外绘
学位
中国是农业用水大国,但存在着严重的水资源匮乏和空间分配不均问题。水资源匮乏不但会严重威胁我国农业的健康发展,也会影响国家粮食安全。随着气候变化及其所带来的影响日益显著,减轻气候变化对农业生产和农业用水造成的不利影响对于提升乡村振兴供水保障能力具有重要意义。现有文献关注了影响农业用水效率的诸多因素,但鲜有文献考察气候因素对农业用水效率的影响及其空间差异。本研究选择共同前沿的SBM(Slacks-Ba
学位
中国水墨人物画磅礴、大气,简约、疏放,有极强的视觉冲击力,素描的引入给人物画注入了新鲜的生命力。随着西方素描与中国水墨的结合,也出现了新的弊端,中国传统文化似乎正在流失,在当代,更多的文人学者突破西方模式化的创作困境,呈现了复杂、曲折的过程,展现了中国水墨人物画在素描影响下的变化轨迹。本文就素描在中国水墨人物画中的演变进程及其影响,从各个阶段全面分析,从明清一直延续到现当代,都是本文分析的对象。文
学位
如今,通过互联网进行通信的行为日益频繁,在网络通信中存储和传递机密信息存在一定的安全隐患,如何有效保护机密信息的安全性引起了广泛关注。隐写术可以有效保护通信的安全性,而数字图像是隐写术中使用最为广泛的一种载体,因此图像隐写术成为信息隐藏领域中的研究热点之一。近年来,图像隐写术的发展逐渐由依赖人工设计代价函数转向基于深度卷积神经网络实现的深度图像隐写术,进一步提高了图像隐写的视觉质量和嵌入容量。然而
学位
古建筑作为人类历史文明的一项文化标志,凝聚了各民族的历史文化精髓。在乡村振兴战略背景下,我国古建筑行业正处于一个大范围历史性的建设窗口期。DX砖雕古建有限公司经过十多年的发展,已成为集设计、生产、施工、咨询服务等于一体的知名砖雕公司,在引领地方企业创新、发挥经济带动作用、保护非遗文化上成为一支不可或缺的力量。由于砖雕是一种典型的建筑构件,属于大件耐用消费品,用户关注度较低、单价高、复购率低、运输成
学位
公司在分配公平和程序公平方面存在的问题,会影响员工的心理所有权和职业承诺,甚至诱发员工越轨行为、产生离职倾向。在公司的KPI考核、薪资发放、岗位变动等环节中,一旦某一环节出现不公平现象,会直接影响员工工作满意度。R保险W分公司是集团人寿保险公司所属二级分公司,主营寿险产品。本文对R保险W分公司缺乏有效激励策略的原因进行了研究,发现如何提高激励方式的公平性是R保险W分公司可持续发展路上亟待解决的重要
学位
随着农业现代化的快速推进,国家愈加重视农业经营体制的改革,而农业经营方式是农业经营体制的核心。为构建起现代农业可持续发展的长效运行机制,需要积极探索适合我国国情的农业经营方式。在当前制度环境下,对农业经营方式变革动力机制的分析,有助于厘清不同发展阶段农业经营方式变革的学理逻辑,从实践经验出发提出契合当前农业经营所需的可行路径,有着一定的理论和实践价值。本文通过对安徽省F县农业经营方式的两次变迁历程
学位
随着消费金融在我国快速的发展,客户的逾期率和消费金融公司的不良贷款率稳步上升,催收作为贷后风险控制不可或缺的一环,在降低客户逾期率和不良贷款率方面发挥着越来越重要的作用。在银保监会对于消费金融公司催收的监管力度愈发严格,同时受媒体“暴力催收”的舆论影响,以及催收行业对于从业人员个人能力的高要求的背景下,外访催收人员工作压力也愈发严重。本文研究的目的是希望通过对J消费金融公司外访催收人员工作压力的研
学位