广义马氏距离及其在数据挖掘中的应用研究

被引量 : 0次 | 上传用户:ode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
距离是科学研究与工程技术领域中使用非常广泛的一种度量,通常被用作衡量两个个体间的相似性,如,聚类分类中的相似性可以用距离来度量;图像匹配中的匹配度可以用距离描述;信息安全中的过滤准则也可以距离来刻画等等。从公元三世纪创立的欧式几何至今,距离计算方法的发展十分缓慢。随着电子商务的高速发展,数据挖掘的热潮再次席卷而来,研究一种新的能够克服现有距离相似性缺点并更适合于数据挖掘领域的距离具有较大的意义。本文以数据挖掘为背景,研发了一种新的更能体现数据间相关性的相似性计算方法,并分别将其应用于传统数据挖掘中的缺损数据补值、新兴的不确定数据挖掘以及分布式数据挖掘领域,理论证明和实验结果均说明了新距离相似性的优越性能。主要工作如下:1.总结数据挖掘领域中的距离计算方法。在数据挖掘领域中,常用的距离相似性计算方法有Euclidean距离、Manhattan距离、Mahalanobis距离等,根据各种距离的计算形式分析了它们的优缺点,为下文研究新的距离提供了依据。2.提出了MP马氏距离(Moore-PenroseMahalanobisDistance)并应用于缺损数据补值。马氏距离相比其它距离,较充分的考虑了数据之间的相关性且不受量纲影响,鉴于该距离中使用的逆矩阵可能不存在的缺点,通过奇异值分解构造了基于Moore-Penrose逆的MP马氏距离,它不受逆矩阵是否存在的影响。在改进了复相关系数倒数赋权法后,将MP马氏距离应用于缺损数据补值,实验结果不仅验证了MP马氏距离的任意存在性,而且在准确性上也略优于马氏距离。3.提出了WMP马氏距离(WeightedMoore-PenroseMahalanobisDistance)并应用于聚类分析。MP马氏距离虽然对任意数据集都存在,但其体现的数据相关性过于客观,可能导致信息错误和挖掘结果非常糟糕。根据实对称矩阵的谱分解理论以及加权Moore-Penrose逆,提出了WMP马氏距离。结合经典的聚类算法进行了仿真分析,结果表明WMP马氏距离在体现数据相关性的准确性上有很大的提高。4.研究了一种新的不确定数据挖掘框架。一般的数据挖掘过程中,原始数据本身可能不准确,数据的预处理可能带来不确定性,数据集成等步骤也可能给数据集带来不确定性,而常见的数据挖掘算法均是针对确定性数据的,因此,传统挖掘方式本身存在着一定的弊端。提出了一种新的基于概率维度的不确定数据挖掘框架,并构造了它的实例,探讨了结合WMP马氏距离应用的相关研究方向。5.研究了一种新的分布式Bayes预测方法。排行榜在电子商务领域中广受关注,但是TB级以上的实时数据排行问题即使在分布式环境下亦是一个难题。改进了朴素Bayes方法,提出了一种离线形式的数据过滤方法,将不可能进入榜单的数据提前进行过滤,从而减小了实时排行所需时间。最后分析了WMP马氏距离在分布式环境下的应用前景。
其他文献
目的分析儿童人工耳蜗植入后康复安置效果,为继续做好捐赠项目受赠聋儿术后集中安置工作及进一步提升术后康复效果提供经验。方法本研究采用教育行动研究法,按照捐赠项目受赠聋
顶管机组是生产无缝钢管的一种重要设备,随着无缝钢管生产工艺技术的发展,新型的顶管机组—CPE顶管机组以其工艺简单、投资费用少、产品质量好、生产效率高并且能够生产高品质
软件无线电技术作为无线通信的未来发展趋势,得到越来越广泛的关注。SCA是一种通用通信系统的设计规范,其设计思想符合软件无线电的软硬件分离思想,因此在软件无线电设计中得到
目的探究优质护理在糖尿病合并心肌梗塞中的干预效果。方法选出76例该院2018年1月—2019年1月期间收治的糖尿病并心肌梗塞患者作为研究对象,根据收治时间将其分A、B组。A组实
我国会计界对管理会计领域的研究却缺乏应有的重视,我国的管理会计无论是在理论研究还是在实践应用方面,同美、英等西方发达国家相比都存在着很大的差距。可以说,我国的管理
金融行业的客户关系管理已经是一种新的营销管理方法,其重要性在金融行业日益受到重视。本文从营销方式、客户管理方式、金融行业与金融行业客户关系等多个方面对对金融行业
<正>松井忠三:只要打造出好的制度,无论在任何时代,都能培养出奇制胜的组织文化!10年多前,无印良品一度濒临倒闭,第三任社长上台后,大力执行改革,短短两年转亏为盈,创下了日
发展连锁经营,可以改变我国商业经营中的陈旧观念好落后的经营管理模式,改变低效率的物流运作方式,完善经营机制,为商业企业经营管理注入新的活力,目前,连锁经营在我国发展速
重症肝炎是肝炎中最严重的类型,其发病急、发展快、黄疸急剧加深和肝脏迅速缩小,主要临床表现有肝臭、出血、肝性脑病及肝肾综合征等。
文中介绍了与现有用途相同但行走原理不同的盾构法、顶管法、土中自行走式掘进机等施工技术的应用和研究现状,还分析介绍了与现有原理相近但用途不同的螺旋锚的螺旋静力承载机