论文部分内容阅读
随着计算机技术的诞生和信息革命的来临,同时不可避免的产生了大量的数据。而数据挖掘技术,就是人们面对大量数据而发展起来的一项多学科交叉的技术。数据挖掘,或者叫做数据库知识发现,是一种自动在大量数据中寻找具有某种相同属性集合的技术。而作为数据挖掘中的一个非常重要的阶段,数据分簌是一个自主无监督的分类过程,其将不同的数据分类到簌中,以达到发现隐藏在数据之间结构的目的。 但是,传统的数据分簌算法,例如层次分簌算法和分割分簌算法,往往无法有效处理超大型的数据库。因此,一种改进的神经网络数据分簌算法,映射性自适应反馈算法,应运而生。它可以在高维空间进行数据分簌。然而,映射性自适应反馈算法的成功运用,必须依靠参数的精确选择和输入数据的理想顺序。这些缺点严重的阻碍了算法应用于实时数据。 在本文中,为了解决PART严重依赖参数的问题,我们提出了一些对映射性自适应反馈算法的改进,包括引进了“缓存机制”和“平均相似度”的概念。这些改进,能够在使该算法有效的分簌高相似性噪声数据的同时,放宽对参数精确选择的要求。其中,缓存管理机制使得不能被立刻明确判定的输入数据,不必马上进行分簌。同时,平均相似度可以使得算法不必依靠参数的精确选择。换言之,不同的参数能够产生相同的分簌结果,包括簌的全部关联维。 在我们的算法中,主要引进了缓存管理机制。当输入数据与分簌竞争的赢者之间的相似度大于参数ρ但是小于平均相似度时,该输入数据并不会被立刻分配到分簌竞争的赢者结点中去,而是被暂时放入缓存中,以便于以后再作判断。 而另一个主要改进就是“平均相似度”的引进。平均相似度代表着该结点当前所有分簌数据的相关维的平均数。每当有一个新的输入数据被分配到这个结点(即这个簌)时,都要重新计算该结点的平均相似度。当有新的输入数据与目标簌之间的相似度小于该目标簌的平均相似度时,该输入数据进入缓存。否则如果大于等于平均相似度,则该输入数据被分配至该目标簌。 同时,我们在本文中对高维人工数据进行了模拟分簌,并且对照不同算法的结果,进行了比较。最后,我们使用映射性自适应反馈算法发现股票价格之间的同升同降相关性。