基于1/2相似度偏离的数据预处理方法

来源 :深圳大学 | 被引量 : 0次 | 上传用户:ai2009ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据的预处理在数据挖掘任务中的重要性越来越高。在数据挖掘任务中,数据预处理通常需要花费整个任务的近百分之六十的时间。数据变换是数据预处理过程中的关键步骤之一,数据变换将数据从一种表示形式转换为另一种形式,进而提高聚类和分类算法的性能。本文提出了一种基于1/2相似度偏离的数据变换方法,本文主要包括以下两部分:提出一种新的数据变换方法:权重矩阵学习方法(Weight-matrix Learning)。权重矩阵学习方法学习到一个变换矩阵W,将原始数据变换到新的特征空间,使得在新的空间中原来靠近的数据变得更加接近,原来远离的数据变得更加远离。其中变换矩阵W是一个方阵,所以变换后的新数据中的每个特征都是原始数据所有特征的一个线性组合。为了得到变换矩阵,提出了一种数据相似度矩阵的求解方法,并且特别设定了一个目标函数,最小化该目标函数能够有效地降低数据相似度矩阵的不确定性。并且设计了一个训练变换矩阵W的神经网络,可以把一些神经网络的训练技巧应用到算法的训练中,从而加速算法的训练过程。权重矩阵学习方法是Feature-weight Learning的一个改进,把变换向量拓展为变换矩阵,一定程度提高了算法的学习能力和变换能力。权重矩阵学习方法使得新空间中同簇(类)样本变得更近,不同簇(类)样本变得更远,所以能有效的提升部分聚类和分类算法的性能。对权重矩阵学习方法进行两点改进。第一点改进,把余弦相似度引入到权重学习方法中,代替原来的基于距离的相似度。数据分布是多样性的,基于距离的相似度不可能适用于所有数据的相似度度量,而余弦相似度提供了一种新的相似度衡量方式。余弦相似度根据向量间的夹角来判断向量的相似程度,给权重矩阵学习方法提供了学习样本夹角的能力,增加了权重矩阵学习方法的适用范围。第二点改进,把线性权重矩阵学习方法拓展为非线性权重矩阵学习方法。对于非线性可分和高维数据,非线性学习是一种很好的解决方案。由于非线性变换后的数据维度通常非常高,权重矩阵学习方法在非线性变换后的空间中进行训练的计算复杂度是非常高的,所以引入了核方法来降低算法的计算复杂度。通过实验证明,基于距离和余弦相似度的权重矩阵学习方法互有优势,所以余弦相似度使得算法具有更广泛的应用场景;而对于高维数据,非线性权重矩阵学习方法能取得更好的效果。
其他文献
在古代汉语当中,宾语前置是一种比较特殊且常见的语言结构,也就是将宾语放在谓语之前,意义在于让语句押韵,更顺口。当我们用现代语言去翻译应用了宾语前置方法的古文时,需要调整语序。文章先阐述了当前古代汉语宾语前置的研究现状,然后重点分析古代汉语中宾语前置的主要种类,结合例子对这些种类的特点进行分析,最后对古代汉语宾语前置句存在的原因和意义进行了研究,希望能为古代汉语的阅读理解和研究提供参考。
现如今,我们正处在艺术发展已经颇具规模、掌握方式手段的多样化的时代。以现代摄影作为媒介呈现出了爆炸式的增长的态势,我们不能再如往昔一般来对待艺术,也不可能不受到现代知识和技术运作的影响。德国当代艺术家格哈德·里希特以其独特的意识分析形态,大量借用了摄影作品作为其物料,其作品更是作为“时代的图像”被大量当代艺术家借鉴学习。格哈德·里希特在其内时间意识上的反思、隐喻、时间的滞留持续都建构了无主题绘画。
目的分析临床护理路径建立对急性非静脉曲张性上消化道出血(ANVUGIB)患者再出血及预后的影响。方法选择医院诊治的ANVUGIB患者63例.,分为对照组(n=33)和.干预组(n=.30)。对照组予以常规护理干预,干预组采取临床护理路径干预,比较两组护理效果.。结果干预组患者护理总满意率9667%,高于对照组(6667%,P<005).;干预后,干预组患.者血红蛋白.水平高于对照组,血尿素氮水平低
行人检测作为目标检测领域的特定课题,在无人驾驶、智能监控、客流量统计、机器人视觉以及人体行为分析等领域都发挥着重要作用。目前,相较于其他算法,使用机器学习搭建的行人检测系统通常能够取得更高的检测精度,但还存在着单一特征对行人整体表征不足、复杂环境中对小尺寸行人目标检测精度差和SVM分类器计算量大、检测实时性低等问题。本文针对传统机器学习的行人检测算法进行研究,对上述不足点进行改进,针对行人目标多尺
区块链作为以去中心化方式集体维护可信数据库的技术,具有去中心化、防篡改、可编程等特点,正成为继大数据、云计算、人工智能、虚拟现实等技术后又一项对未来信息化发展产生重大影响的新兴技术,有望推动人类从信息互联网时代步入价值互联网时代。然而,区块链技术发展至今,可扩展性问题已经成为限制区块链应用场景的主要障碍。本文研究了现有的主流区块链系统扩容方案,如状态通道、侧链/子链、Plasma和ZK Rollu
随着互联网的不断普及和人工智能技术的发展,数据量呈指数增长。在大数据时代,如何从海量的数据中快速获取有价值的信息并有效运用,是数据挖掘分析领域研究的重要问题之一。一图胜千言,将复杂的文本数据以图的形式表达,能够让人们更快更准确的获取所需信息,更好的理解信息,知识图谱由此应运而生。近年来,随着“互联网+”和“中国制造2025”的提出与发展,知识图谱受到工业领域的青睐,智能制造成为了传统工业转型的关键
作为光伏发电技术中光伏电池与电网的重要接口,光伏并网逆变器的研究越来越受到人们的重视。光伏并网逆变器研究中,各类并网逆变器控制策略层出不穷,但是随着一些分布式能源发电的应用,各类并网逆变器中高频电力电子器件等的引入,以及非线性负载等的广泛使用,导致了通信设备与电力电子器件的灵敏度降低,影响并网逆变器的控制过程,导致逆变器输出谐波含量增多,使得并网电流谐波畸变率增大,严重时导致系统不能正常运行。因此
跨境并购是企业快速获取核心技术和战略资源的一种有效的外部途径,越来越多的上市公司通过跨境并购布局全球产业链,加入到全球价值链的竞争中。随着知识经济的兴起,跨境并购的动机除了拓展市场、获取自然资源等目的外,更多的涉及知识资产的获取和转移,知识产权越来越成为跨境并购双方关注的焦点,而东道国的知识产权保护程度会对知识资产的引进、输出和转让等经济行为产生重要的影响。企业在全球价值链中的位置作为企业能力的象
区块链技术和社交网络的结合是未来社交媒体发展的新趋势。传统的中心化社交网络中,网络平台的服务商采集用户数据,开发基于数据的应用获取利益,存在着社交价值的垄断。而具有去中心化属性的区块链技术使得数据公开共享,参与网络的用户可以利用公开的数据开发自己的数据应用,形成了良好的社交生态。其中,社交网络具有明显的社区属性,包含了人际关系特征。通过对社交网络进行社区检测,可以深入分析网络的拓扑结构,发现用户的
区块链技术具有去中心化、安全可信、数据不可篡改的原生优点,具有成为下一代价值互联网的巨大潜力。但是区块链技术目前存在的性能局限严重限制了其发展,因此提高区块链系统性能对区块链技术的发展至关重要。当前常见的区块链扩容方案主要分为链上扩容和链下扩容两种方案,本文针对链上扩容方案(如隔离见证、分片等)存在扩容效果不明显、扩容方案实现难度大等问题,以及链下扩容方案(如闪电网络、侧链技术等)存在中心化风险高