论文部分内容阅读
随着互联网等计算机技术的高速发展,数据挖掘相关技术正在成为当前的热门学科,数据关联便是其中之一。数据关联的任务是将数据集中的属于同一现实实体的记录聚类。如果一个数据集中的每一条记录都包含描述实体的属性和表示这些属性存在时间的时间戳,这个数据集可以认为是时序数据集。时序数据集中,实体的属性值往往会随着时间发生变化。对于这样的数据集,用户会希望能够挖掘出某个实体的属性随着时间变化的情况。然而时序数据集中记录的时间跨度越大,实体属性值变化的幅度也越大,对数据关联造成困难。此时传统的关联算法难以应对这种情况。 本文实现的Chronos系统,基于能够应对时序数据变化的时序关联算法,对论文发表信息的数据集进行数据关联,并将关联结果展示出来。时序数据关联算法是能够利用时序数据集中时序特征的关联算法,在关联论文作者时得到的F-measure可以达到0.9,可以修正DBLP中出现的一些错误。Chronos系统提供对作者进行检索和对作者的历史信息进行展示的功能,还可以对不同关联算法的结果进行比较,并可以向用户解释结果上的差异。