基于大数据分析的气味识别

来源 :上海应用技术大学 | 被引量 : 0次 | 上传用户:sidney1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在化工生产实验中,经常调配产生新的化合物,然而新产生的化合物所具有的气味可能是未知的,在不知一种化合物的气味是否有刺激性时,是不能依靠人体的感觉器官去检测的。本文研究的目的就是将机器学习算法应用到嗅觉领域,结合化学与香精香料领域知识,根据气味分子的化学结构特征建立模型预测气味刺激性。研究中采用梦想气味数据集结合Pubchem建立标准气味数据库建立模型进行单分子化合物的刺激性分类预测。在数据预处理上,首先检查了每个特征的缺失值与异常值,对于个别缺失值用对应列的平均数代替,整列为0的无关向量则剔除,对于异常值由于个数较少则不做处理;其次根据两两特征之间的相关性分析去除掉相关度高的冗余特征;最终分别采取手工特征选取、PCA特征转换、t-SNE特征转换、随机森林特征选取四种方法进行降维,最终共筛选出15维化学分子描述符特征,并建立标准气味分子数据库以供后续使用。在模型的选择上选取了随机森林、Logistic回归、XGBoost与Stacking四种算法建立分类模型,在建模之前对数据分别进行No Sample、Over Sample、Smoteenn平衡采样三种采样方法处理数据,从而使样本数据分布均匀,防止过拟合。在对模型的评估方面,采用模型预测的准确率Accuracy与F1-Score等评分指标对模型的效果进行综合评价,根据生成的混淆矩阵可以直观的看出真正例、假反例等指标的预测结果。通过对比验证建立的12个预测模型综合评估可知,采用Smoteenn平衡采样的Stacking模型对气味刺激性的分类效果是最好的。并将此气味识别系统应用于实际生活中,基于Django框架、Python语言、My SQL数据库搭建了一个刺激性气味识别网站。本研究根据气味分子的化学结构特征建立模型预测气味刺激性,既能防止有毒气体危害公共人体安全,也能省去为确定气味分子刺激性而付出的时间与精力,为后续研究气味化合物的通用性表征奠定基础。
其他文献
近年来,我国经济逐渐由高速发展转变为高质量发展,实体经济面临重大压力,产品核心竞争力不足,投资回报率明显下滑。与之形成鲜明对比的是金融业仍保持较高的收益率,许多实体企业受到资本逐利的驱使而配置大量金融资产。因此,我国实体经济发展形成脱实向虚的现象,金融产品和经营业务的投资结构失衡成为威胁实体企业健康持续发展的顽疾。而国有企业对国民经济至关重要,是国民经济发展的中坚力量。自2013年十八届三中全会提
学位
随着人口老龄化、工业环境污染和不良生活方式等问题的出现,癌症已成为危害全球居民身体健康的重要因素,并且癌症发病率和死亡率一直处于持续增长的阶段。放射治疗是治疗恶性肿瘤的重要手段之一,其中2D/3D医学图像配准又是放疗中的关键方法,在解决患者摆位验证问题上发挥着重要作用。本文主要利用深度学习方法实现2D/3D医学图像配准,提高配准精度和效率。针对2D/3D医学图像配准方法时间长且容易陷入局部最优的问
学位
近年来,因为商场导购、工业生产、跟踪搜寻等领域的急切需求,人们对室内定位服务的精度和可靠性的要求越来越高。超宽带(Ultra Wide Band,UWB)定位以其高精度和高稳定性的优势迅速发展普及,同时深度神经网络因其较强的非线性映射能力成为现阶段备受研究人员青睐的热门。本文以深度学习方法解决UWB定位问题。主要完成的工作如下:1、本文提出一种自编码器预处理的神经网络结构,解决室内定位中因多径效应
学位
针对月表地形的建模与检测是月球车探测的基础。由于陨石坑是月球地形上占比较大的通行障碍,由此,本文提出了三种算法,分别解决月表地形建模问题、规则陨石坑检测问题以及不规则陨石坑的边缘识别问题,具体工作如下:首先,本文对月球表面的地形数据进行了三维仿真,通过分析地形的基本特点,从基础地形建模、地形的高度拟合以及纹理贴图三个方面进行研究,通过改进原有的移动立方体算法,选用中点位移算法并加入非线性插值函数F
学位
公司特质风险属于公司层面的股价波动,与企业各个方面的特征都存在较为紧密的联系,能够体现出企业信息发展状况以及现金流波动情况。我国政府对系统性金融风险关注度非常高,积极采取各种各样的措施对这种风险进行预防与管理,上市企业特质风险更是受到多方面关注,成为投资者较为关心的问题。在“特质风险现象”等被提出之后,对企业特质风险产生影响的因素受到了更深层次的关注与分析,微观金融学领域也开始涉足这个问题。它主要
学位
作为资本市场上的信息中介者,证券分析师能够以盈余预测报告、评级报告的形式向市场投资者提供有关公司内在价值的信息,缓解资本市场信息不对称程度,提高资本市场运行效率。而现实中,往往存在的是分析师由于主观动机或者客观环境限制等方面因素而倾向于发布带有乐观偏差的研究报告,严重阻碍了资本市场信息通道,不利于满足我国日益提高的资本市场高质量发展要求。因此,基于此背景下,本文探究分析师预测偏差抑制路径,对保证资
学位
DV-Hop应用于无线传感器网络节点定位,是典型的非基于测距类型定位模型之一,具有低造价、易开展等优点,主要缺点是对各向异性网络拓扑适应性较差,实际应用中的定位精度有待提高。本文分析了经典DV-Hop模型的算法原理与主要误差来源,以其定位步骤为线索分别提出改进策略,包括参与未知节点定位计算的信标组合选择策略,对应于未知节点自身的距离估计策略,以及节点位置计算算法优化策略。具体而言,验证变邻域搜索算
学位
随着我国经济发展模式逐渐转向高质量发展模式,企业为了实现高效率、高质量发展,也应当追求更加科学的方式来促进绩效的提升。合理、科学的公司治理模式将对企业绩效产生质的影响,高管激励作为公司治理的重要一环更是对企业的绩效产生了决定性作用。因此,研究如何通过高管激励来促进企业绩效的提升,是目前理论与实务界研究的主要议题。高管激励机制作为公司治理机制的一种,通过对高管薪酬契约的设计可以有效地完成对高管的激励
学位
遥感图像语义对齐是指将卫星或者其他遥感设备获取的不同模态、不同时间或者不同角度的遥感图像进行图像语义对齐的过程。该技术目前已应用于遥感图像融合、卫星图像波段匹配和导弹末端制导等领域。为了提高遥感图像语义对齐在各领域的准确性和泛化性,本论文提出一种基于残差块改进暹罗网络的近红外和可见光遥感图像语义对齐的方法,另一种为基于强化学习的近红外和可见光遥感图像语义对齐方法。1.针对传统遥感图像语义对齐方法对
学位
图像配准是指运用数学理论和计算机技术将具有相同目标区域的多幅图像进行几何对齐的过程。作为图像处理的基础问题,其应用范围甚为广泛。例如,在医学上,对多幅不同模态下的颅脑图像配准,可更加准确的对脑部疾病做出评估,为后续治疗方案的制订提供强有力的数据支撑;在遥感领域,多时相遥感图像配准可直接反映被检测区域的环境变化,异源遥感图像配准可充分弥补不同传感器的成像劣势,提供更加丰富的场景信息;在机器视觉中,无
学位