虚拟样本生成技术及建模应用研究

来源 :北京化工大学 | 被引量 : 23次 | 上传用户:yanjinghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“大数据”时代,在很多领域,数据海量,知识贫乏,需要通过数据挖掘发现知识,数据驱动建模成为研究热点,而数据样本个数不充分、样本代表性不典型或者样本分布不均匀等严重制约数据驱动建模的质量。在大数据背景下,不可忽视的一个重要问题就是大数据、小样本问题。这个问题主要源于数据获取成本较高、或数据重复或发生概率较小等原因,致使面临有用数据有限。基于小样本如何进行有效建模是计算智能领域的一个重要研究方向,具有十分重要的理论研究意义和应用价值。解决小样本问题,目前学术界主要有基于灰色理论与机器学习的方法和生成虚拟样本的方法等两种途径。基于小样本数据产生新的有效数据是补充数据的一种有效方法,虚拟样本生成技术是解决小样本问题的重要研究方向。在大量文献阅读、归纳、总结的基础上,本文将针对监督式和非监督式机器学习算法所对应的标签数据和无标签数据的小样本问题,开展基于小样本的虚拟样本产生、优化和应用研究,以产生充足的有效数据集,进而开展神经网络结构和算法研究以提出数据驱动的智能建模新方法,并开展工程建设费用风险分析应用研究。本文的主要研究内容如下:(1)基于整体扩散技术的虚拟样本生成新方法。整体趋势扩散技术是一种有效的基于分布的虚拟样本生成技术,但现有技术只考虑了在原始样本区域和扩散区域采用同一种数据分布方法产生虚拟样本,并且增加虚拟输入属性使输入空间倍增。本文在此基础上,在已知小样本区域采用不均匀分布、在拓展区域采用均匀分布两种方式相结合,通过多分布整体扩散技术推估小样本属性可接受范围,同时为了不增加输入属性,不再求取隶属度函数值代表样本点发生的可能性作为模型的虚拟输入属性,由此形成了一种更有效的虚拟样本产生新机制,提出了一种新颖的多分布整体趋势扩散技术(MD-MTD)。通过标准函数和工业数据集验证了所提方法的有效性。(2)基于优化技术的虚拟样本生成新方法。为了解决虚拟样本的优化问题,在MD-MTD的基础上,本文提出了基于三角隶属函数的信息扩散方法(TMIE),进而提出了一种新的确定上下拓展区域界限的方法,基于改进的MD-MTD产生虚拟样本,采用PSO对所产生的输入属性的虚拟样本进行优化计算,获得更合适的虚拟样本,由此提出了 PSO-MD-MTD方法。通过标准函数和工业数据集验证了所提方法的有效性。(3)基于插值的虚拟样本生成新方法。基于分布的虚拟样本生成技术是基于小样本建立的模型,由此本文研究建立一种合理有效的基于小样本的神经网络模型,进而根据所建模型的线性和非线性结构特点进行虚拟样本的生成。为此,本文提出了一种极限学习机隐含层插值的虚拟样本生成方法(IVSG),对极限学习机隐含层的输出数据进行中值插值产生相应的虚拟样本,再由隐含层输出数据的虚拟样本前后反推输出层输出和输入层输入空间的虚拟数据。通过标准函数和工业数据集验证了所提方法的有效性,并对IVSG、PSO-MD-MTD和MD-MTD进行比较,分析不同方法的适用性。(4)基于偏最小二乘法的函数连接神经网络建模新方法。在解决数据样本有效性问题的基础上,利用数据驱动建模思想来挖掘数据背后隐藏的知识就是一项十分重要的工作。为了有效解决函数连接神经网络中共线性数据问题和有效地挖掘有限数据背后的知识信息,本文结合极限学习机模型,提出采用偏最小二乘学习算法取代函数连接神经网络原模型误差反向传播算法来求取模型参数,由此提出了一种基于偏最小二乘学习算法的函数连接神经网络模型(PLSR-FLNN),通过两个工业实例数据集验证了所提方法的有效性,与其它四种建模方法比较验证了所提方法的先进性。(5)基于蒙特卡洛方法扩充样本实现工程建设费用风险分析与评估。在解决监督学习中数据和建模问题的基础上,本文针对非监督学习中的数据问题开展研究工作。重点探讨Monte Carlo在工程建设费用风险分析中的不确定性小样本问题,提出基于蒙特卡洛模拟的样本补充方法,在此基础上,根据数据样本估计费用项的概率分布和概率密度函数,同时采用蒙特卡洛模拟和市场因素驱动,并结合李克特量表分析法,对各影响因素进行综合分析与评价,由此提出一种实用的工程建设费用风险分析方法,通过实际工程案例验证了所提方法的有效性。
其他文献
目的 了解我院新建分院前4年内鲍曼不动杆菌的分布及对常用抗菌药物的耐药性变迁情况。方法 回顾性调查我院2013年8月—2017年8月4年内检出的122株鲍曼不动杆菌的标本来源,科
8月8日,西宁公交2019年比亚迪纯电动公交车上线运行仪式在西宁公交集团四分公司举行。随着该批车辆的投入运营,西宁市将进一步提升公交整体服务形象,构建具有西宁特色的畅达
摘要:计量经济学是经济类专业的核心课程,计量经济学课程可以培养学生较强的经济学专业数学建模能力,但一直以来与其他实践教学环节都是脱节的,没有形成很强的耦合关系,文章说明了计量经济学与经济学专业实践教学环节需要建立耦合关系,并提出了具体的做法。  关键词:计量经济学;经济学专业;实践教学环节  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2019)40-0183-02
谈到昆曲,我认为不得不说的代表作品那就是《牡丹亭》,《牡丹亭》是昆坛最为盛演不帅的经典剧目,也是每一个昆剧表演团体的保留剧目。
目的探讨血清骨膜蛋白(Periostin)、血管内皮生长因子(vascular endothelial growth factor,VEGF)及内皮素-1(ET-1)水平对高血压患者颈动脉病变和心脑血管事件的预测价值。方法选取
摘要:随着输血医学的不断发展,输血医学也在不断进步,输血科的日常工作也发生了极大的变化,将来对于输血医学专业的医学生也会有不停的需求。对此,对于输血醫学生的培养模式也会随之相应的改变。本文通过阐述目前输血科的发展现状及需求,然后结合不同培养层次临床实习生在输血科的临床实习工作情况,从目前临床输血工作的重点、实习生对输血工作的已经掌握情况以及现有实习生目前对于输血工作最薄弱的环节、最缺乏的知识技能方
随着经济的发展,人们对教育的重视程度也在不断的提高,对幼儿进行更全面的行为培养和性格培养也成为人们日益重视的对象。幼儿阶段的教育和认知多是辅助手段为主,让幼儿自主
上个世纪九十年代合成孔径雷达取得长足的发展,欧洲遥感卫星、加拿大雷达卫星等各类合成孔径雷达成像系统陆续升空,实现了长期持续地对地球表面的观测.同时我国的SAR成像系统
<正>印度商会近期称,中国已取代印度传统贸易国阿联酋及美国,成为印最大贸易伙伴。从进出口贸易结构来看,印度对中国出口的商品多为资源密集型或劳动密集型产品,其中矿产品和
[摘要]影响人力资本发展的因素很多,由于投资风险大所导致人力资本投资不足,是问题的根本所在。文中着眼于人力资本投资风险因素,识别了云南民营企业人力资本投资所潜在的包含风险大类和风险子类、具有双层结构模式的风险体系,建立了风险评价的一般性指标体系,提出了民营企业人力资本投资项目选择风险测度的分析框架,引进了可量化风险等级的模糊综合评价模型(FCE)。  [摘要]民营企业人力资本投资风险识别FCE模型