论文部分内容阅读
作为从大规模数据中发现隐含知识的有效技术,数据挖掘以及相关算法的研究在近年来引起了人们广泛的兴趣,并被应用到大量的相关领域。同时,随着基于案例的推理(CBR,Case-Based Reasoning)系统在组织知识管理中的广泛应用,案例库的规模也在不断地膨胀,引发了人们对案例库维护的关注。如何采取合适的策略和技术来提高案例的质量,改进案例库访问性能,提高CBR系统的效率和能力成为人们关注的焦点。 基于这个背景,本文以组织中案例库维护的实际需求为基础,从提高案例质量和改进访问性能两个角度出发,研究案例库以及案例访问记录的数据挖掘技术,以及案例库维护技术。 为了支持对案例库的挖掘,本文在面向对象的案例表示的基础上,提出了一种基于加权特征矢量的案例表示方法。以此为基础,对现在的领域无关的案例相似性比较算法进行改进,在数据挖掘中基于该算法建立案例特征的描述模型。此外,本文还分析了案例记录的内容和表示方式,从访问事务和访问时序两个视角来研究案例记录中蕴含的动态的案例访问描述模型。这些工作为案例库维护提供了技术基础。 在对案例特征和案例访问记录进行数据挖掘的基础上,本文从内容维护和性能维护两个方面研究案例库的维护方法。在内容维护方面,以提高案例库的案例质量为目的,本文研究了利用孤立点分析检测不一致案例、利用分类技术完善不完整案例、利用聚类技术检测冗余案例以及利用趋势分析检测垃圾案例等四种维护技术。在性能维护部分,以提高对案例库的访问速度为目标,本文利用数据挖掘改进了现在常用的案例库分层算法,并提出了对频繁使用的案例进行缓存、以及对经常同时访问的案例进行预取两种方法。 论文通过数据挖掘技术来解决CBR系统中关于案例库维护的问题。但是,论文所讨论的方法与技术并不局限于CBR系统,对于各类知识管理系统所需要维护的组织知识资产库,本文的研究工作都具有一定的借鉴意义。