基于互信息与决策树的特征选择

来源 :兰州大学 | 被引量 : 1次 | 上传用户:goodcat13579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术这一大助力促使我们跨入了大数据的新时代,学习者从指数级数据中去找出那些对自己研究问题有帮助的信息是非常重要的.为了避免其他无关的信息干扰研究与学习,我们必须把用来建立模型的数据集的维度降到一定范围.降低维度的方法种类繁多,特征选择便是一种方法.本文提出了一种降维方法GA-MAX-NMIFS.该方法以标准互信息和决策树为基础去评判数据集中的变量.首先,用MAX-NMIFS方法对初始数据集中的变量进行选择得到候选数据集.然后,用决策树在候选数据集中找出具有最大分类正确率的子数据集作为准数据集,紧接着用遗传算法对准数据集寻优得到目标数据集.最后,在模拟数据集和16个实证数据上用GA-MAX-NMIFS特征选择方法降维.用初始数据集和降维后的新数据集分类并比较,实验结果表明了GA-MAX-NMIFS特征选择方法降维后的分类些果好于其初始数据集的些果,并且该方法有些地选择出模拟数据集和16个实证数据集中对后续学习有用的特征.
其他文献
作为意识形态的绘画受到每个时代、社会的种种影响,唐代绘画在其强大的历史文化影响下,构筑了中国传统绘画的中枢核心。其人物画是历代发展的一次高峰。从绘画的形式上,壁画
电影既是时代与历史的影像,也是电影艺术的叙事搬演和审美建构。电影所纪录的,是经过话语转义和影像表现的历史。海峡两岸关系的纷繁历史,在电影中被影像的奇观遮蔽与消解,历
《国际水道非航行使用法公约》是第一个在全球范围内调整国际淡水资源利用关系的公约。强制性的争端解决程序是《公约》的独创和特色,但其有悖于《联合国宪章》和其他国际水
本文应用连续法对平面铰链四杆机构的函数综合、刚体导引综合及再现轨迹综合等问题进行了系统的研究,较好地解决了平面四杆机构运动综合中长期存在的初始值与全部解这两大难题
近几年国民经济快速发展,各种类别的项目工程建设规模日益扩大,特别是一些重大项目工程包括大跨结构、超高层结构、高耸结构以及一些大型异形复杂结构等日益增多,由于结构体
研究背景帕金森病(Pαrkinson diseαse, PD)仅次于阿尔茨海默病,是最常见于中老年人群的第二大神经系统变性疾病。其病因至今尚未明确。遗传因素、环境因素、年龄老化、炎性
目的:比较芸香苷在不同提取工艺下的提取率。方法:采用紫外分光光度法测定芦丁的含量。结果:超声、沸水收率较高。结论:槐米提取率以超声最佳,沸水煎煮次之,碱提酸沉最差。
小学阶段是教育的启蒙阶段,创新能力的培养应从孩子抓起,从问题意识的培养入手。小学语文结合其课程特点,在对学生创新意识的培养上具有不可或缺的教育作用,问题意识的培养是
能源与环境问题已经成为制约社会发展的关键因素,由于可以实现节能和环保的双赢,分布式发电技术已成为电力工业的重要研究方向之一。但是分布式发电也存在着诸多问题,为了解
作为人民生活和各行各业发展的基础资源,水资源在人们的生产和生活中发挥着巨大的作用,同时也制约着经济的飞速发展。供水是关系国计民生的一个重要产业,随着城镇人口的增长