基于免参数据挖掘的相异度度量研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:nhybgt12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着数据挖掘的迅速发展,各种聚类、分类等技术已广泛应用于各种领域,但其中参数设置带来的问题也越来越引起研究人员的注意。于是,免参数据挖掘思想应运而生。本文深入分析了参数设置对数据挖掘结果的各种影响,大量研究表明参数的设定是影响甚至导致数据挖掘结果出错的重要因素之一,因此在数据挖掘的各个环节实现免参是解决这些问题的一个途径。文章从相异度度量方法入手,在对Kolmogorov(描述)复杂理论研究的基础上,将其和免参数据挖掘思想相结合,提出了一种基于压缩的相异度度量方法SCDM(Symmetrical Compression-BasedDissimilarity Measure)。该方法采用压缩算法估计Kolmogorov复杂度,由于压缩算法本身的高效性,使得该方法也具有较高的效率。本文使用MATLAB仿真软件、标准压缩软件以及DNA序列专用的GenCompress压缩软件实现了SCDM的功能,在DNA序列和实时序列上做了大量实验,与带参的距离度量方法及欧氏距离的结果进行了比较,分析了SCDM方法的正确率。本文还将SCDM方法应用到了层次聚类算法中,实验结果表明,由于SCDM方法采用了压缩算法,所以对被比较对象要求不高,只要维数相近就不需要标准化,也允许少量数据点的丢失,再加上压缩算法本身的时间空间高效性,对高维数据的处理也比较容易,可以省去其它方法对高维数据进行降维处理这一步骤。而且SCDM方法不需要参数设定,因而不需要参数训练和选择,避免了参数设置不当对聚类结果的影响,很好地提高了算法的正确率。应用SCDM方法的层次聚类算法的聚类准确率也较高。
其他文献
智能规划是当前人工智能领域中极为活跃的一个研究热点,它已广泛应用于自主机器人、航空航天、自然语言理解、知识推理、人机交互、数据挖掘等许多高技术领域。虽然它的一些
数字存储、通讯和互联网的飞速发展使海量的视频数据出现在人们生活的方方面面,视频成为人们获得信息的主要载体。尽管网络带宽、磁盘容量、内存等还在持续增大,但对视频数据进
双能X射线安检设备技术成熟,性能优越,成本较低,辐射剂量小,能够满足大部分情况下的安检工作需求。与传统的单能X射线技术相比,双能技术不仅能够得到行李的透射图像,还能通过高能和
近年来,随着网络的飞速发展,分布式环境中的访问控制和授权管理作为信息安全领域的一个重要部分得到了快速发展。公钥基础设施PKI有效地解决了身份认证、数据保密和数据完整性
事务处理作为Web服务的关键技术之一,决定着Web服务是否能被企业广泛地采用。事务在Web服务组装中可能跨几个小时,跨多个企业,与传统事务处理系统有很大的差别。IBM、微软等公司
制造业的发展对产品性能、规格、品种不断提出新的要求,产品的生命周期越来越短。新产品的开发时间是制造业中的决定性因素。虚拟制造技术可以模拟由产品设计、制造到装配的全
XML是互联网中表示结构化信息的一种标准文本格式,它没有复杂的语法和包罗万象的数据定义,但却利用半结构化的数据表达,良好的实现了互联网中的数据交换。XML利用可扩展性、灵活
目前,道路交通问题已成为人们关注的焦点之一。为了有效地解决这一问题,智能交通系统(Intelligent Transponalion Systems,ITS)得到了越来越多的关注和研究,其研究的内容非常广泛
随着近年来流媒体技术的不断发展,在网络上观看多媒体视频节目的用户越来越多,高校中通过借助多媒体教学平台辅助教学是现代教学的一个发展趋势。校园网络是一个复杂的网络环境
经典规划对规划问题做如下三条假设:规划问题的目标是世界状态的逻辑描述;规划器所采取的动作是改变世界状态的唯一来源;动作由前提条件与效果来描述。也就是说,在经典规划所