【摘 要】
:
如何让各种数据挖掘技术更好地为实际工程所服务,一直是数据挖掘领域的一个挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是各种信息的纷繁芜杂,在这两
论文部分内容阅读
如何让各种数据挖掘技术更好地为实际工程所服务,一直是数据挖掘领域的一个挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是各种信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。聚类分析在数据挖掘技术中占有重要的位置。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集,每个类内的对象之间是相似的,但不同类的对象间区别相对较大。聚类分析是在没有先验知识支持的前提下,根据事物本身的特性研究被聚类对象的类别划分,实现满足这种要求的类的聚合,它所依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象具有尽可能大的差异性。论文基于大规模核物理科学数据挖掘的背景,全面介绍了数据挖掘的关键技术和主要任务,从理论、算法和应用三个层次,结合科学数据的特点来分析预处理技术和聚类方法,提出了很多实用的预处理方法:对HDF5科学数据进行分块、除噪、集成、变换等,同时对它使用“截断法”和“逐层求差法”进行规约,并对数据进行信息提取。在聚类方面,经过比较各种聚类算法和分析科学数据的特点,提出了结合k-平均思想的改进型系统聚类算法。此聚类算法有如下特点:能生成具有代表性的数据簇中心;使用相似系数计算距离,避免了距离受量纲影响的缺点;不需要多次迭代计算,减少了计算量;不需要指定初始中心;改进了聚类图,更容易得出聚类阀值。实验结果表明这种改进的系统聚类算法非常适合科学数据的处理。本文最后简单介绍了我们开发的科学数据挖掘系统。其中重点介绍了聚类分析模块的设计和功能。
其他文献
中国民族器乐事业在党的百花齐放,推陈出新文艺方针的指引下,近50年来取得了令人瞩目的成就,表现在中国民乐呈多元化发展的局面,民乐已走向世界,民乐日益普及后继有人,民乐遍布全世
美国著名黑人女作家艾丽斯·沃克从她的写作伊始就开始为无声者呐喊,她尤其关注黑人女性的命运。在《寻找母亲的花园》(1983)的扉页上,艾丽斯·沃克为黑人女性主义者及有色人
分析了冷轧卷综合成材率的影响因素,包括原料卷重、酸洗切头尾和切边损失,以及冷轧工序卷芯和卷尾损失,通过采取提高热轧原料宽度精度以减少切边量、将酸洗切头尾量由原来的12m
目的了解脑梗死患者幽门螺杆菌(Hp)现症感染情况。方法用13C-尿素呼气试验的方法检测634例脑梗死患者及878例非脑梗死患者的Hp感染情况,并分析其与年龄及脑梗死发作次数间的关
目的探讨PDCA循环管理在护理实习生带教中的应用效果。方法选取我院52名护理实习生为研究对象,采取随机性的方法,将其分为A1组和A2组,每组26名护理实习生,A1组采用常规管理方
我国食品添加剂经过20年的发展,生产已初具规模,品种和产品均有很大增长,基本满足食品工业的需求。近年来,国内外焙烤行业在使用二乙酰酒石酸单甘酯(DATEM)时,存在此纯品易结
在市场经济环境下,日益增多的中小型商贸企业成为我国经济发展中最具生命力的个体。但其在发展的过程中,同样存在许多制约,如融资成为制约企业发展的"瓶颈"之一,而融资后如何
建立了计及轮齿时变啮合刚度、啮合阻尼、支承刚度和阻尼的齿轮系统扭转-横向振动耦合的3自由度动力学模型。用数值仿真方法,研究了重合度、支承刚度、啮合阻尼和支承阻尼对
运动目标检测与识别算法的研究是当今图像处理与图像理解领域的一个热门方向,随着其应用领域得不断扩大,其实用价值越来越得到人们的重视。运动目标检测与识别算法研究的对象
通过对各种服装色彩搭配的形象构建,揭示了服装色彩搭配是满足现代消费者感官需求的发展趋势,也是服装设计者在色彩搭配设计上体现在产品、广告、包装和卖现中,成为可以与市