食品安全数据降维及分类方法研究

来源 :郑州轻工业大学 | 被引量 : 0次 | 上传用户:camino
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和生活水平的提高,人们对于食品的质量与安全有了越来越高的要求。与此同时,食品安全问题形势十分严峻,成为了人们的热点关注话题。食品安全数据中蕴藏着海量信息,如何利用数据分析和挖掘技术来解决食品安全行业面临的问题,成为了当今研究的重点。然而,食品安全领域发展到现在,数据所呈现的大规模、多种类、高维度等特性,严重影响了相关技术的处理效率。一方面,食品安全数据的“维数灾难”使得分类技术得不到令人满意的结果。另一方面,虽然传统的降维技术实现了降维效果,但降低了低维数据的类别判别能力。为了进一步提高食品安全相关数据的挖掘效率,本文通过研究食品安全数据的降维及分类技术,详细分析了传统降维和分类方法的建模理论以及优缺点,并基于食品安全数据的来源与特征和现有降维及分类技术存在的缺陷与问题,以食品相关数据集为主要研究对象,对食品安全相关数据的降维与分类方法展开研究。本文所做的主要工作总结如下:(1)提出基于互信息可信度的主成分分析降维算法。针对食品安全数据集,传统的主成分分析算法存在耗时太长、降维结果一般及不能满足实际分类要求的问题。通过从不同角度对互信息进行研究,引入互信息综合可信度的思想。首先利用互信息综合可信度进行数据矩阵的特征筛选,再运用主成分分析算法降维,提高算法在食品数据集上的降维能力。(2)提出基于类内和类间距离的主成分分析算法。为了改善高维食品安全数据的降维结果,同时提高数据低维表示的判别能力,引入类内和类间距离,通过实现类内距离最小化、类间距离最大化,对数据投影矩阵进行优化,改进了基于信息熵的主成分分析算法,算法在保证高维食品数据集降维结果的同时,提高了低维数据对类别判断的贡献力。(3)提出基于样本选择和余弦相似度的C4.5改进算法。针对大规模食品数据集,为了提高数据集的分类正确率,减少样本训练时间。首先采用统计最优样本大小策略确定最优样本大小;然后将C4.5算法的分类精度作为迭代依据,对最优大小样本集进行高度优化并确定出最佳训练集;之后计算属性之间的余弦相似度,合并训练样本集中高度相似属性对的属性值,更新训练集;最后依据C4.5算法选择最佳分裂属性,构建决策树,提高算法在食品相关数据集上运行效率和分类正确率。
其他文献
电脑家族原本支派繁多,近来又形成了新的谱系。缩小版的全功能PC,有些被称作超移动PC(UMPC),有些被称作移动互联网终端(MTD),已经可以单独分类了,而且吸引了很多消费电子用户、爱好者
目前,煤炭企业形势严峻,员工普遍缺乏凝聚力、向心力,对企业的未来信心不足,究其原因,这与对企业文化建设重视程度不够有相当大的关联,特别是面临企业的困境,企业更应创新思
《食品安全法》在社会的期盼中出台,它在多大程度上能够确保消费者的食品安全,还有待于考证。    6月1日,《食品安全法》正式实施。该法从生产、销售、监管等相关环节为食品安全加上了多重保险,尤其是规定:“违反本法规定,造成人身、财产或者其他损害的,依法承担赔偿责任。生产不符合食品安全标准的食品或者销售明知是不符合食品安全标准的食品,消费者除要求赔偿损失外,还可以向生产者或者销售者要求支付价款十倍的赔
教师给予孩子的反馈会在无意起到鼓舞或伤害孩子自尊心的作用,不同的回应方式及水平对儿童的影响和帮助是大不一样的,所以对于教师回应研究无论是对教师或是幼儿都有着建设意
校企合作是一种职业教育育人模式,它是我国职业教育发展的必然选择。要着重在招生就业、教学模式、企业文化引入等方面下功夫,在实践中不断总结和提炼,形成具有我国特色的校企合
国家实施的"卓越工程师教育培养计划"对高校人才培养提出了新的要求。课程作为人才培养的最基本单元必须进行相应调整与改革,才能真正符合"卓越计划"的人才培养要求,为培养学生卓越的工程技术能力提供保障。"土地信息系统"课程作为土地资源管理"卓越计划"建设专业的核心课程,本文针对该课程教学中存在的问题,介绍了中国地质大学(北京)在教学内容、教学方法、课程考核方式上进行改革的经验。
目的探讨中药汤剂常见不良反应及其预防对策。方法选取2017年1月—2018年3月采用中药汤剂进行治疗的患者92例,按照随机数字表法分为对照组(46例)和观察组(46例)。对照组患者
目的:观察吉西他滨联合奥沙利铂(GEMOX方案)治疗晚期恶性实体瘤的近期疗效和不良反应。方法:30例晚期实体瘤患者,初治24例,复治6例,采用GEMOX方案:吉西他滨1000mg/m^2,dl、d8静脉滴注;草
2004年年底,Intel推出了1066MHZ FSB(前端总线)的pentium 4 Extreme Edition(P4EE、中文名称是“奔腾4至尊版”)3.46GHZ处理器,Intel由此踏入了1066MHZ FSB的大门。为了配合1066M
拔开IT江湖上的恩怨纠缠和刀光剑影,我们发现这些IT人原本有着共同的甜蜜追忆:大学。那些日子不仅为后来的叱咤风云打下了基础,也成为了疲惫之后最想怀念的理想地。对于在IT江湖