【摘 要】
:
在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并从中获取知识变得十分困难,对于这些数据,科学家已经不满足于传统的
论文部分内容阅读
在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并从中获取知识变得十分困难,对于这些数据,科学家已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对决策或科研工作提供更有效的决策支持,由此科学数据挖掘势在必行。本文主要研究适合于大规模科学数据挖掘的分类和聚类的理论和应用.以决策树,BP神经网络,基于密度,基于划分,迭代网格为主的分类、聚类技术解决科学数据挖掘中的大规模知识发现问题。本文以分类和聚类算法为主要研究对象,描述了分类和聚类算法的基本模型。在传统聚类算法的基础上,结合我们科学数据挖掘的应用对象—分子动力学数据,提出了迭代网格聚类算法,k-平均和基于密度结合的聚类算法,迭代过程中优化选择中心点的k-平均方法,以及改进型的基于距离的聚类算法等模式识别方法,能够解决传统算法带来的诸多问题(比如一些传统的聚类算法常常收敛于局部最优,发现都模式都趋近于球形,划分方法中迭代次数过多带来的效率问题)。对于高纬数据的分析尤其有利,因此对大规模模式识别的研究一定会产生极大的促进作用。最后结合一些传统的数据挖掘方法,采用已有的预处理步骤,确定了数据挖掘模型,验证了我们算法的有效性和正确性,为从大规模科学数据中提取有价值的信息提供有效的新方法。
其他文献
随着高校的不断扩招,生源数量不断增加,教学资源相对匮乏,使得目前任选课的授课质量受到了一定的影响,主要体现在教师任务重,不能保证按照课表规定的教学时间进行课堂教学活
人工神经网络具有模拟人类的大脑活动,具有良好的自学习、自适应、联想记忆、并行处理和非线性转换的能力。本文阐述了人工神经网络基本原理,研究分析了BP神经网络模型的缺陷
二维图形的排样问题在国民经济的许多行业中都有应用,因此利用计算机进行二维图形自动排样在工业生产中有很重要的意义。特别是随着工业生产的发展,大规模的批量生产孕育而生,对
随计算机网络技术的不断发展和应用的不断深入,网络安全问题日显突出。作为保障网络安全的重要手段之一,入侵检测的重要性已得到人们的普遍认可。入侵是不可避免的,问题取决于检
随着企业实施的IT支持系统不断增多、范围逐渐扩大,出现了大量的异构系统,“信息孤岛”问题日益突出,企业应用集成EAI(Enterprise ApplicationIntegration)便成为企业必须面对和
凹凸字符的银行卡图像其卡号字符颜色与背景色一致,同时存在背景花纹以及颜色干扰,并且字符边框不显著。现有的字符识别研究成果不适合银行卡卡号凹凸字符的识别,必须研究与其相
作为身份鉴别的一种手段,手写签名在现实环境中大量使用,如合同的签署、票据的确认等。伴随信息处理技术的发展,从上个世纪六十年代至今,研究人员在离线中文手写签名的自动鉴别方
随着云计算的广泛运用,越来越多的数据拥有者选择将本地上复杂的数据管理托管到云平台。公有云上数据的隐私信息会受到多方面的攻击,出于对数据隐私的保护,发布到公有云上的数据
随着信息社会的不断发展,各种大型企业需要保存的业务信息越来越多,使得数据库的规模也变得越来越大。数据库规模的不断变大,将会导致数据库系统性能的急剧下降,使得数据库维护的
如今多核技术的发展大大提高了计算机的运算能力,但也愈发使得内存子系统的性能成为计算机整体性能的瓶颈。如何提高片外DRAM带宽利用率是实现多核性能存储关键之一。而内存的