论文部分内容阅读
数据挖掘经过十几年的蓬勃发展,产生了丰硕的成果。各式各样的数据挖掘理论被提出与采用;各式各样的数据被挖掘:各种各样的数据挖掘平台被不断地开发。本文针对全局和局部挖掘的集成问题进行了分析,重点研究了基于局部信息的全局数据挖掘方法及应用。首先,根据数据挖掘的过程,我们将该问题的研究划分成三个阶段,即利用粒度数据表示进行挖掘,利用局部信息改善全局挖掘的效率和利用局部模式结果获得全局数据理解,并对每个阶段进行了研究,最后将所研方法应用于文献数据挖掘中。本文所做的主要工作如下:(1)在数据表示上:提出了基于数据粒度表示的两个高效挖掘算法GB-FIM和GrC-FIM。本文针对隐私保护造成数据扭曲使得挖掘效率下降的问题,我们提出了基于数据粒度表示的粒度位向量挖掘算法GB-FIM和粒度推理计算挖掘算法GrC-FIM。这两个挖掘算法分别利用数据的粒度表示和粒度计算推理技术挖掘了扭曲数据集。GrC-FIM算法在GB-FIM的基础上利用粒度推理的方法简化了支持度计算。实验结果表明这两个算法的运行效率较传统算法提高较大,特别在稠密数据集上,利用粒度推理技术的方法不仅能够提高运算效率,而且能够提高挖掘的准确性。(2)在结果精简上:提出了基于支持度和模式相似性的混合距离模式压缩算法。本文针对闭合序列模式数量较多影响理解的问题,研究了对其压缩的方法,方便了信息的表达。我们针对基于模式支持集进行聚类方法的缺陷,提出了将支持度和序列模式本身相结合的混合距离方法。利用此距离,可以高效对闭合序列模式进行聚类,且取得很好的聚类效果。利用从聚类中总结出精简偏序的方法可将模式进行精简表示。试验结果显示本算法能够在效率与准确性之间得到较好的折衷,获得理想的结果。(3)在挖掘过程中:提出了基于启发式搜索的全局偏序改进算法和基于传递闭包的动态贝叶斯网络构造算法。利用局部模式能够反映数据的局部特征,从而改进全局挖掘算法,提高其效率。首先我们利用序列的局部频繁特征改进了全局偏序挖掘算法,在保证准确性的前提下提高了挖掘效率;然后,我们针对全局偏序表达容易丢失局部信息的问题,提出了基于传递闭报的动态贝叶斯网络方法来反映序列数据的特征,该算法能够在不增加复杂度的前提下更加准确地对序列进行构造。(4)在应用上:研究了基于文献数据理解主题演化和影响的问题。当前,随着数字图书馆技术的发展,大量文献数据为研究者进行研究工作提供了便利,但同时使得如何更加快速和准确地理解领域的发展和演化变得困难。针对这一问题,我们首先利用本文所提出的基于传递闭包的动态贝叶斯网络构造模型分析了研究者的出版文章序列,获取了对领域演化的理解;然后,我们运用模块化网络构造技术研究了主题的影响,通过线性分段技术获得了主题强度的趋势信息,通过模块化网络的全局模型构造分析了主题的影响关系。