论文部分内容阅读
随着计算机技术的迅速发展以及数据库管理系统的广泛应用,越来越多的数据被存储起来,如何在这些海量的数据中寻找真正所需要的知识显得尤为重要。数据挖掘作为一个多学科的交叉学科,能够在海量数据中发现有用的模式和规则,是将数据转化为知识的重要手段。数据挖掘技术虽然渗透到了社会的各个方面,但在学术期刊上应用却比较少。论文以“期刊网络化综合运行管理平台”为应用背景,针对该平台已有的业务数据,基于业务数掘库与主题数据仓库,采用数据挖掘方法对有关期刊运行效率与管理质量中的问题进行了研究,并将研究的结果形成新的质量管理规则,运用到学术期刊在线运行管理中。
首先,研究了学术不端行为的检测方法,设计出了一种基于字符串匹配的文本复制检测算法。通过抽取各期刊论文的特征,建立稿件信息数据仓库,运用设计的检测方法,先对数据仓库中的论文进行研究方向和关键字的筛选,缩小比对范围,然后再利用KMP算法对论文的摘要进行详细检查,把相同的文字显示出来,为工作人员尽快准确判别和发现学术不端行为提供了一种有效方法。
其次,对投审稿信息进行了挖掘方法研究,依据统计分析法对稿源信息进行了统计挖掘分析,同时,提出了一种审稿专家的聚类分析方法。前者为工作人员从研究方向,基金类型等各个方面来了解稿源情况提供了依据,后者,则为工作人员构建审稿专家库和合理送审提供了依据。
最后,针对期刊运行与管理系统中日志文件的特点,基于数据仓库技术,对系统日志进行了统计挖掘分析,为期刊的日常运行和维护提供了科学的分析方法和分析依据。
通过对上述数据挖掘方法在期刊运行与管理系统中的研究和实现,为期刊的管理提供了一套辅助分析方法,为提高刊物的办刊质量和办刊效率,减少工作人员的工作量创造了条件,对学术期刊的高质量的健康发展和高效稳定运行具有重要的理论和实践意义。