论文部分内容阅读
随着大数据时代的到来,积累的数据在不断增加,数据挖掘技术也在不断发展完善,并且在很多行业中得到广泛应用。关联规则挖掘是数据挖掘中的一个重要组成部分,也是其主要的研究方向之一,其目的是从大量的数据集中发现某些隐含的、未知的关联或潜在的、有效的关系,从而发现对用户有价值的信息。如何有效地向用户表达挖掘出的关联规则是值得重点考虑的。近年来,概念图已作为一种有效的表达方式应用到多个领域。其对知识的有力的表示,既能将抽象的关联规则表达成更具体的概念和概念关系,又可以完整表达自然语言意思,实现自然语言的生成。概念图利用人们对图像的敏感性拉近了用户与关联规则的距离,但表达方式仍然很抽象,尤其是关联规则复杂的时候,使普通用户的理解变得困难。关联规则挖掘技术的不断发展和应用,使得如何将挖掘算法生成的逻辑表示的关联规则转化为普通用户也能理解的自然语言,成为关注的重点。对于普通用户来说,将关联规则用自然语言描述出来是最容易理解的。本文利用概念图和自然语言生成技术相结合的方法实现关联规则的自然语言直观表达,将关联规则挖掘结果自动转化为大众化的自然语言句子,使得不具备数据挖掘知识的普通用户可以理解挖掘结果表达的含义。本文的主要工作内容和创新点如下:1)提出关联规则的概念图表示方法。利用概念图强大的表达能力和自然语言生成技术将关联规则解释为自然语言。首先,借助领域数据库识别关联规则中的概念和概念结点。然后,通过已经确定的概念图的概念结点、概念关系组成最终的概念图。最后,将使用谓词表达形式的关联规则用概念图表示出来,以方便关联规则的进一步转化。2)提出将概念图转化为自然语言的方法。首先,结合领域知识库中的背景知识,对文档进行规划,确定生成文本涉及的信息和结构,并生成文档计划,概念图在结构上与文档计划有一定的相似性,大大简化将概念图转化为文档计划的难度;然后将文档计划作为输入,通过微观规划进行词汇选择、集结和所选表达生成,输出仍然为树形结构,叶子结点表达的已经包含最后生成的自然语言句子的一部分;最后利用领域IV知识库实现语言和结构的表达,以及背景知识辅助生成自然语言的句子。使得不具备专业知识的普通用户也可以理解挖掘结果,提升系统的可用性。3)设计和实现了基于概念图的关联规则的自然语言表示原型系统,并对系统进行了实验和分析。