基于邻域粒化的样本约减及预测方法研究

来源 :河北科技大学 | 被引量 : 0次 | 上传用户:xiaosongs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,分类预测方法在管理领域的应用逐渐增多。分类预测是对原始数据进行分析,并从中抽取刻画数据类别的模型,这种分类模型又被称为分类器。分类预测模型的可靠程度依赖于数据的可靠程度,数据的冗余会导致预测结果产生偏差。虽然目前学术界对分类预测模型的研究和应用有很多,但是很少考虑数据冗余的情况。由于数据出现冗余是数据获取过程中不可避免的,因此从数据的角度去除其中的冗余数据,再对数据进行预测,可以有效的提升数据的分类预测精度。本文以预测问题为背景,主要做了以下工作:1)通过随机森林属性重要度方法对属性的重要度进行分析,约掉属性重要度较低的属性,然后选取最优初始约减样本,构建基于最小间隔的样本约减集合,给出了最优邻域半径的确定方式;提出基于邻域粒化的样本约减模型(简记为NG-SR),给出了NG-SR的实施步骤、讨论了NG-SR的计算复杂度;最后结合几个常用UCI数据集和实际的案例分析了NG-SR的结构特征,比较了NG-SR选取初始约减样本的合理性,验证了NG-SR的可操作性和可解释性。2)在上一步样本约减的基础上,首先针对距离度量的选取忽视属性重要度的问题,根据随机森林属性重要度方法综合考虑各个属性的重要度,然后提出一种结合属性重要度的加权距离度量方式,接着以这种方式构建待预测样本属于某个样本类别的可信度,根据样本类别可信度的高低来判别该待预测样本的类别;进而提出基于邻域分类的预测模型(简记为PM-BN)。给出了PM-BN的实施步骤、讨论了PM-BN的计算复杂度;最后,结合实际的具体案例分析了PM-BN的结构特征,验证了PM-BN有效性和实用性。
其他文献
温室效应导致自然灾害频发,严重影响人类社会的生产与生活。CO2是温室气体的主要成分,减少CO2排放成为缓解温室效应的首要目标。CO2盐水层封存是减少CO2向大气排放最有效与最
随着我国汽车工业的不断发展,汽车保有量剧增,汽车尾气排放带来的污染问题也日益突出。高海拔地区由于环境因素的改变,导致汽车油耗及排放等特性变化,因而研究高海拔地区轻型
桨叶是直升机旋翼系统的重要组成部分,目前最常用的直升机桨叶是由复合材料制成的。研究表明,晶格结构具有轻质与高强度的力学性能,在桨叶内部填充晶格结构,与蒙皮共同构成3D
目的:为探究局灶性进展为双侧强直-阵挛性癫痫发作(focal to bilateral tonic-clonic seizures,FBTCS)患者脑灰质的变化,从而发现FBTCS患者可能存在的脑灰质微小病灶及疾病进展对颅脑的影响。方法:本研究纳入了26名FBTCS患者,21名健康志愿者作为对照组(HC组)。采集3.0T磁共振三维T1序列图像,利用基于体素形态学测量(voxel-based mor
在高度工业化的现代社会,人们已经逐渐解决了生产力的问题,但是经过了几个世纪突飞猛进的发展后,对环境造成了极其严重的破坏性打击。另一方面,从最初的钻木取火,到煤炭、石油等化石能源,再发展至现今的可再生二次能源,能源形式的迭代一直贯穿整个人类发展史。在能源问题和环境问题亟待解决,以及可持续发展的背景下,寻找新型清洁可再生能源成为了当务之急。氢气凭借其环境友好性、回收利用的可能性等特点,被认为是替代传统
前门大栅栏是明清时期北京最重要的商贸中心,凝聚了北京古都文化的精髓。随着夜经济的发展,前门大栅栏将打造成北京老城唯一的夜经济地标。为了在发展夜经济时更有效传承北京
我国丰富的页岩气资源储量为大力发展页岩气产业奠定了强劲的基础,如何快速高效地进行页岩气开采是页岩气产业发展的关键。四川省是我国最早开展页岩气研究和勘探开发的省份
当前,我国经济以稳定的增速快速发展,人均可支配收入不断提高,伴随着4G的快速普及,国内移动通信产品与服务的消费量呈现逐年增长的趋势。YY公司是中国移动集团公司下设的地级
下肢深静脉血栓(deep venous thrombosis,DVT)形成是人工髋关节置换(THR)术后常见和严重的并发症。按照预防骨科大手术后深静脉血栓形成的专家建议的患者静脉血栓栓塞危险分
会议