基于邻域粗糙集和Lebesgue测度的特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:usercmd1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来随着信息技术的快速发展,大量的信息呈现爆炸式的增长,这导致了许多冗余信息的出现,对做出正确的决策产生了影响,因此,对冗余信息的预处理变得更加迫切。特征选择,又称属性约简,作为数据预处理的核心内容已取得了快速的发展,其主要目的是在原始信息系统中选择出一些最有效特征以减少搜索空间,提高数据处理效率,同时保持原始系统数据分类能力。目前,特征选择已被广泛应用到人工智能、数据挖掘、模式识别等领域。传统的特征选择方法仅从代数观点或信息论观点单方面来研究不确定性。本文针对含有符号型和数值型数据的信息系统,引入Lebesgue测度,提出基于邻域粗糙集的特征选择模型和算法,通过实验分析验证所提方法的有效性。本文的主要研究内容包括3个方面:
  (1)针对含有符号型和数值型混合数据的信息系统,为了从代数观点和信息论观点分析邻域粗糙集的不确定性度量,基于Lebesgue测度和熵度量,提出一种邻域粗糙集特征选择方法,该方法能在保持原始信息系统分类能力不变的情况下直接处理混合数据,提高分类性能。首先,将Lebesgue测度引入到邻域粗糙集模型中弥补传统粗糙集模型不能从理论上分析可数无限集的缺陷;其次,在代数观点和信息论观点的理论基础上,分别给出粗糙度和邻域熵的度量,定义邻域粗糙联合熵;然后,基于Lebesgue测度和熵度量设计一种处理混合数据的邻域粗糙集特征选择算法;最后,在5个UCI数据集和4个基因数据集上进行仿真实验,实验结果表明该方法能有效的获得特征子集和较好的分类性能。
  (2)针对含有符号型和数值型混合数据的不完备信息系统,基于Lebesgue测度和熵度量提出一种不完备邻域决策系统特征选择方法。首先,构建基于Lebesgue测度的邻域容差关系,研究不完备邻域决策系统中代数观点下的正域和依赖度;其次,在信息论观点下,给出基于Lebesgue测度的邻域容差熵定义,在两种观点的理论基础上,定义邻域容差依赖联合熵;然后,基于Lebesgue测度和熵度量设计一种邻域粗糙集特征选择算法,处理混合不完备邻域决策系统;最后,在7个UCI数据集和8个基因数据集上进行数值实验,实验结果表明该方法对于混合不完备邻域决策系统具有较好的分类能力,能选择相关的特征子集。
  (3)在特征选择过程中,针对多数基于单一二元关系的粗糙集模型计算复杂度较大的问题,引入多粒度粗糙集模型,在含有符号型和数值型混合数据的不完备信息系统中,基于Lebesgue测度和熵度量提出一种邻域多粒度粗糙集特征选择方法。首先,在不完备邻域决策系统中,给出乐观和悲观邻域多粒度粗糙集模型,并与Lebesgue测度相结合;其次,给出代数观点下乐观和悲观邻域多粒度粗糙集度量,以及信息论观点下邻域多粒度熵度量,定义悲观邻域多粒度依赖联合熵;然后,基于悲观邻域多粒度依赖联合熵设计一种邻域多粒度粗糙集特征选择算法,处理混合不完备邻域决策系统;最后,在7个UCI数据集和8个基因数据集上进行仿真实验,实验结果表明所提方法是有效的。
其他文献
TiO2作为一种极具前景的介质材料被应用到薄膜技术中来,引起了国内外研究者的极大兴趣。作为光学膜,TiO2薄膜在可见光区透射率高,折射率大,化学稳定性高、强度大、硬度高,是非常重要的光学膜,己被广泛地应用于抗反射涂层、干涉滤波片、电致变色窗和薄膜光波导。作为电学膜,TiO2薄膜的绝缘性能好,可作为大规模集成电路的保护层。TiO2的介电常数很高,可用于半导体器件MEMS、MOS等的栅介质。随着薄膜科
正交频分复用(OFDM)技术能有效克服无线信道多径衰落的影响,非常适合于下一代高质量、高速率的无线多媒体通信。而采用多发射多接收(MIMO)技术的OFDM系统由于更高的频谱效率受到广泛关注。但是OFDM的实际应用需要谨慎考虑信道估计等重要问题。本论文重点研究了单发射单接收(SISO)和MIMO-OFDM系统的信道估计算法,提高了信道估计的精度。论文创新性成果如下:首先,提出了基于Walsh变换的最
学位
随着图像传感器技术的发展,多传感器图像融合技术应运而生,并广泛应用于军事侦察、医学诊断、遥感、智能机器人等领域.该文详细研究了多传感器图像融合算法,从彩色显示和灰度显示这两个角度对多传感器融合技术进行了泛分析.该研究工作的选题不仅具有重要的理论研究价值,而且具有广泛的实际应用价值.该文的主要工作可总结为以下几个方面:(1)简单叙述了多传感器图像融合技术的主要研究内容,分析了各种图像融合算法,介绍了
支持向量机是当前机器学习领域的研究热点。本文对支持向量机一些算法进行了研究。全文共分五章,如下:第一章概括了支持向量机的两种数学描述—最大间隔描述和平分最近点描述,列出了支持向量机几种常见和流行算法,并指出了他们存在的问题。第二章研究了针对最大间隔描述的支持向量机流行快速算法──SMO算法。总结了SMO算法的原理,用程序实现了SMO算法。经用典型的双螺线问题对算法进行测试,显示:SMO算法运算效率
学位
环形锻件在火车、工程机械、轴承、船舶、石油化工、发电、航空航天、核工业等工业领域应用十分广泛,在其锻造的动态过程中,径向截面形线以及各尺寸数据的在线测量对控制其尺寸精度、减少废品率有着至关重要的作用。然而,环形锻件在锻造时处于高温及高速旋转的动态过程中,且激光扫描仪的扫描角度受限,故需要进行多次扫描。由于多次扫描造成扫描数据量很大,据此测量得到的径向尺寸精度较低。因此,提高环形锻件径向截面尺寸的在
学位
近年来,在有关软件缺陷预测(Software Defect Prediction, SDP)的研究中,基于跨项目的缺陷预测问题逐渐成为研究的重心。大多数缺陷预测的研究都将该问题作为二分类问题或回归问题进行讨论。事实上,在缺陷预测的现实场景中,开发者在大多数情况下并不需要每一个软件实体的具体预测结果,而是让自动缺陷预测工具找出项目中可能具有高风险的文件,对其进行定位修复即可。  本文借鉴推荐系统中经
如何进行高质量的几何重建和高保真的纹理映射是三维重建中的一个重要研究课题。虽然现有的重建算法很容易重建日常生活中的物体和场景,但是这些三维重建算法重建得到的几何模型和纹理映射结果离直接应用到其它领域还有很大的差距,例如VR/AR、数字娱乐、游戏以及3D打印等。由于三维重建算法本身的缺陷以及深度图包含很多噪音和扭曲,不可避免地会造成估算的相机位姿出现偏移,并导致重建的模型出现几何上的扭曲和细节丢失,
学位
秘密共享是密码学领域的基石,在现代密码学中占有重要的地位。秘密共享的思想是将秘密以某种方式拆分成不同的子份额,子份额由不同的参与者保管,只有若干个参与者合作才能得到秘密,这样可以防止秘密过于集中,达到分散风险的目的。秘密共享是信息安全和数据保密的重要手段,并被广泛的应用于政治、经济、军事、外交等诸多方面。但现有秘密共享中存在参与者合谋问题、计算不公平问题和秘密验证算法效率低下等问题。本文结合云外包
学位
传统的交互式图像分割方法包括基于区域的分割方法和基于边界的分割方法,它依据用户输入先验信息仅仅利用像素间的局部关系建立关系模型,易对初始种子/轮廓位置敏感,对噪声缺乏鲁棒性进而产生欠分割问题。超像素通过聚类像素将图像分为若干具有相同属性的子区域以加速后续任务的处理。文章旨在利用超像素提升交互式分割方法的分割性能,并取得了一些研究成果:  1.总结了基于区域及基于边界的交互式分割方法的基本理及缺点,
近年来,人们对数据完整性和机密性的要求不断提高,可信云存储和云上数据的可访问性引起了研究者们的关注,可搜索加密技术应运而生。该技术允许数据拥有者将加密数据存储在云中,并使用关键词令云服务器对密文搜索后返回对应的文件。可搜索加密在保护数据隐私的同时,允许数据拥有者对密文数据进行可控操作,是密码学中的热点研究内容,适用于工业、医疗、物联网等领域。  随着人们对搜索功能的需求越来越多,一些具有简单功能的