论文部分内容阅读
近年来,范例推理(Case-Based Reasoning,CBR)的基础研究及系统实现正受到人们的普遍关注,是当今人工智能研究的前沿课题。CBR不仅是关于人类认知的心理学理论,而且将成为智能计算机系统技术中新的基石之一。CBR技术在知识不良定义和专家知识不全的领域中应用效果很好,但CBR系统中仍存在着知识获取和维护瓶颈问题。另一方面,数据挖掘(Data Mining,DM)技术是从大量数据中发现知识,因此是解决知识获取和维护瓶颈问题的有效途径之一。将范例推理研究与数据挖掘技术相结合,是具有重要意义的研究方向。 随着互联网的普及,Web文本资源已呈现几何级数的增长,有效地获取蕴藏在Web文本资源中的大量未知的、有用的信息,正成为国内外学者关注的研究热点。其中Web文本的预处理和文本理解又是互联网文本信息处理基础性工作,该工作必将有力地推动计算机对大规模Web文本资源的自动处理。 随着人工智能技术的不断成熟,专家系统技术正被研究者引入到互联网文本信息处理领域中,为理解互联网文本信息开辟了新的研究方向。 本论文围绕以上几个方面,进行了深入的研究。论文的主要内容为: 首先,将数据挖掘技术引入到范例推理系统中,解决系统中的知识获取和维护瓶颈问题。主要的工作有:一是结合数据挖掘中的聚类算法与脚标数据的特点,给出了一种有效的基于能力的范例库自动建立新方法;二是结合基于选择的CLARA聚类方法和NCL聚类算法的优点,给出了一种无监督下对范例进行准确归类聚类学习算法,该方法能大大地提高范例提取的速度和质量;三是给出了基于聚类方法的范例删除和范例增加维护策略。以上这些都将有利于增强CBR系统解决问题的有效性和实用性。此外还针对传统数据抽查方法很难保证数据抽查有效性的缺点,结合离群数据挖掘的方法,给出了一种基于离群数据挖掘的数据抽查新方法。该方法能克服传统数据抽查方法的缺陷,从而保证了数据抽查的有效性和全面性。 其次,开展了对互联网文本信息自动处理中的主题词自动抽取和文档自动摘要等基础性工作的研究。具体包括:一是在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取新方法,该方法以词频统