高维数据的预处理研究及其产品设计中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yjddstevens
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的飞速发展和各个领域信息化建设成就的提高,各行各业都聚集了海量的有价值的数据资源,这些数据往往具有缺失、异构、噪声和高维等特点。由于数据中含有大量的冗余特征和重复或者异常的数据点,特征和实例数量急剧上升,这将大大降低数据挖掘算法的效率和准确性。为了在杂乱无章的数据中获取有价值的信息,改善数据挖掘的性能,增强计算机对数据的理解性和学习效果,研究高维数据预处理方法具有十分重要的意义。  异常检测是预处理的研究方向之一,本文以频度属性的数据为研究对象,提出一种基于超图模型的频度数据异常检测方法。本文主要工作包括:  首先,针对基于距离的异常定义方法会丢失属性差异信息和数据点差异信息的问题,在分析异常点分布特点的基础上,给出一种基于属性加权的距离定义方法,该方法通过统计属性在数据点中的比重和异常属性在整体数据中的分布信息度量属性的差异。在利用相似度度量数据点之间差异信息的基础上,给出一种距离和相似度结合的异常定义方法,然后根据这种定义,提出了一种基于稠密子图划分的频度属性数据的异常检测模型。  其次,结合文本数据特点,在稠密子图划分思想的基础上,给出了频度属性的加权方法和超图构建方法,并设计了基于支持度框架的孤立文本判断方法。以共享反转K近邻的方法保留文本局部距离信息,结合余弦相似度描述文本之间关系,设计了基于频度属性数据异常检测的孤立文本剔除方案。  最后,分析了机械新颖专利的领域特征分布,给出新颖专利的定义,并将频度属性数据异常检测方法应用于新颖专利发现过程。并以洒水车的新颖专利发现过程为例,验证其方法的可行性。
其他文献
热塑性复合材料相对热固性复合材料具有良好的抗疲劳性,优异的减震性,独特的各向异性,方便的可设计性使得它越来越多的应用于航天航空工业、汽车制造业、军事工业等各个方面领域
近年来,静电纺纳米纤维膜以其比表面积大、孔径小、孔隙率高、渗透性好等优势,已在过滤领域得到了越来越广泛的应用,但存在通量与截留率相互制约的问题。针对此问题,本论文提出将
我国是世界上纺织品的生产与出口大国,随着国际环保意识的逐渐增强,现今生态纺织品发展已经成为国际流行趋势。而我国尚未建立完善的国家纺织品生态安全监控体系,没有一个完善的
天津市河西煤建公司以深入开展“创建学习型组织,争做知识型职工”、“我为河西发展做贡献,我为企业发展当先锋”和“满意在河西、满意在行业、满意在岗位”主题竞赛实践活动
近年来,激光加工技术因为相较传统的加工方法具有无法比拟的优越性而得到越来越广泛的应用,其中与传统的提高材料机械性能的热处理、热化学处理以及特殊的力学处理方法,如表
随着纺织技术的发展,织物朝着精细化方向发展,对纱线的要求也随之提高。这就需要一种精确度高的检测方法,基于机器视觉的纱线外观质量检测方法不仅检测精度高,而且可以直接检测纱
由于无源器件自身非线性特性导致的无源互调(Passive Intermodulation,PIM)问题严重影响着通信系统的正常工作,若不采取合理有效的抑制措施,PIM问题甚至会导致系统的瘫痪,因此非
丝素蛋白是从蚕丝中提取的天然高分子纤维蛋白,富含18种氨基酸,是一种天然高分子材料,无毒、可生物降解、和人体具有良好的生物相容性。近年来丝素蛋白在生物医用材料方面的研究
迈入工业4.0时代,制造业的主要特征转向智能和互联,企业的运营越来越依赖于信息技术。制造业整个价值链、制造业产品的整个生命周期都涉及到诸多的数据,数据量的暴涨给该行业带
随着能源短缺问题的日益突出,如何提高能源利用率成为人们关注的热点问题,强化换热技术因为能够显著提高换热效果,达到节能、减排的效果,受到学者们的广泛关注,节能、高效的换热设