基于进化多目标优化的特征选择方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:l00ok100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择和聚类算法是文本分类领域的两个重要问题,特征集的大小与好坏决定了信息处理的速度和精度,聚类算法决定了文本分类结果的正确率。但是,当前的特征选择算法存在着需要预先设置阈值、对数据集中样本分布过度依赖等问题。相应地,特征选择之后的聚类过程中,存在着需要固定聚类中心数目、忽略样本隶属程度和样本对聚类影响等缺点。本文参考几种经典的特征选择方法,同时鉴于多目标优化思想在寻找Pareto最优解的优势,将粒子群多目标优化算法与特征选择算法相结合,提出一种基于进化多目标优化的特征选择方法——EMOO-FS算法。该算法对特征属性进行分析,选择两种分别在平衡数据集和非平衡数据集中表现较好的特征属性,将两种属性进行推导构成多目标优化模型,最后使用进化多目标优化的方法找到一组均衡的特征构成特征子集,使得该子集可在样本分布未知的情况下较好的代表样本的实际情况。EMOO-FS算法突破了传统算法仅仅针对一个特征属性进行筛选的手段,克服了对数据集的依赖。针对降维后的样本集,在文本聚类的过程中,本文既考虑到样本对所在类别的隶属度,又分析了样本对聚类的一种影响程度。因此,本文提出了混合Fisher线性准则思想的一种模糊的聚类算法——FDC。这种双向的思考使得本文提出的FDC算法能够克服对聚类中心数目的依赖,动态的生成聚类簇,公平的得到聚类结果。本文通过仿真实验,使用两种数据集对EMOO-FS算法和IG、MI、CHI的F1测度和M1测度进行比较。实验结果证明了该算法能够在样本分布未知的基础上,找到一组均衡的特征集并取得较好的分类效果。使用多种数据集对FDC和KM、FCM算法进行正确率和随机值的比较。实验结果证明该算法能够动态的决定聚类数目,并在多类别标签数据集和平衡数据集上获得较好的分类效果。
其他文献
高层体系结构(HLA)是分布式交互仿真发展的前沿,代表着仿真技术的发展方向。它强调仿真系统的互操作性和可扩展性,并且能够支持不同类型的仿真成员之间互联。为了满足信息对抗
这些年来,网络的迅速发展给人们的生活带来极大的便利的同时,也带来了许多安全性问题,木马、蠕虫等问题层出不穷,严重威胁着人们的财产安全。其中网络协议作为网络通信的主体成为
本课题针对网构软件系统独有的基本特征,研究网构软件在复杂开放网络环境下的可信性问题。结合其演化性的特点,根据模糊理论、信息熵理论、演化博弈理论、生态进化理论以及经典
多跳无线网络技术的发展满足了人们随时随地进行组网的需求,为人们提供了更加高效、便捷、灵活多样的网络接入方式。其自组织、自配置、自愈性等诸多特点使其能够有着较快的部
无线传感器网络(WSNs,WirelessSensorNetworks)是由随机分布在陆地、水域或者其他地区的传感器节点自组织形成的无线网络。节点受能量、体积及价格的影响,其计算能力、存储能量
近年来,由于网络应用系统的普及,软件系统的质量特别是对隐私性的要求越来越受到人们的重视,软件工程领域的一个主要挑战就是使用户信任日常生活中所使用的软件系统,可信的软件系
随着信息技术的快速发展,及企业信息化建设的需求,IT服务管理(ITSM)在企业运营管理中所起的作用越来越重要。信息技术基础架构库(ITIL),作为IT服务管理最佳实践指南,提倡以流程为
随着虚拟现实技术引起越来越多的关注,以及计算机图形学与计算机软硬件快速的发展,2016年被定义为VR/AR元年,广大虚拟现实技术的学者和计算机软硬件厂商都投入到了虚拟现实技
现代技术特别是高技术条件下的局部战争中,如何能够迅速、准确地获取瞬息万变的战场信息,已经成为决定战场胜负的重要因素。随着计算机和网络技术的迅速发展,作战指挥方式已从传
语音识别技术是机器学习领域的一个重要研究方向,在现实生活中有着广阔的应用前景。随着移动互联时代的到来,移动终端成为主要的人机交互平台,语音识别技术在移动终端上的应用越