论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,是信息科学领域的前沿研究课题之一,有关的研究和应用提高了决策支持的能力,成为数据库研究中一个富有应用前景的领域。数据挖掘已经在诸多领域有广泛的应用并解决了许多商业问题,取得了良好的社会效应。
本文描述了数据挖掘的概念、功能以及发现模式的分类。在数据挖掘算法中,关联规则挖掘是数据挖掘领域中的重要研究内容。传统算法在生成关联规则时,存在着生成规则的效率低、生成的关联规则之间存在着大量的冗余,或挖掘出的规则的支持度和置信度都很高,但却是无趣的、甚至是虚假的规则。本文在研究了现有数据挖掘的基础上,结合专利文献挖掘的需求提出了一种新的算法FP-VNRARM (Frequent Pattern Valid and Non-Redundant Association Rules Mining),该算法采用经典FP-Growth算法的一种改进形式实现方式,首先消除基于同一个频繁项集的简单冗余规则,在此基础上二次挖掘,消除不同频繁项集间生成严格冗余规则,并引入相关度的概念,最终挖掘出的规则有效并无冗余。实验证明FP-VNRARM算法是有效可行的。
在数据挖掘技术的应用方面,本文面向专利文献挖掘应用的实际需求,分析了专利文献的应用及其用途,研究了专利技术、专利文献的自身特点,以及专利文献蕴涵的丰富的技术信息、法律信息和商业信息,寻找将数据挖掘技术应用到专利文献中的途径。最后以江苏省镇江市光电子领域专利信息平台为主要背景,将数据挖掘的方法和知识理论应用到实际系统中,采用FP-VNRARM实现了在专利信息的关联规则挖掘,并为今后的专利信息挖掘工作提出了几点建议。