基于概念图的关联规则的自然语言表示方法

被引量 : 0次 | 上传用户:dhamma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,积累的数据在不断增加,数据挖掘技术也在不断发展完善,并且在很多行业中得到广泛应用。关联规则挖掘是数据挖掘中的一个重要组成部分,也是其主要的研究方向之一,其目的是从大量的数据集中发现某些隐含的、未知的关联或潜在的、有效的关系,从而发现对用户有价值的信息。如何有效地向用户表达挖掘出的关联规则是值得重点考虑的。近年来,概念图已作为一种有效的表达方式应用到多个领域。其对知识的有力的表示,既能将抽象的关联规则表达成更具体的概念和概念关系,又可以完整表达自然语言意思,实现自然语言的生成。概念图利用人们对图像的敏感性拉近了用户与关联规则的距离,但表达方式仍然很抽象,尤其是关联规则复杂的时候,使普通用户的理解变得困难。关联规则挖掘技术的不断发展和应用,使得如何将挖掘算法生成的逻辑表示的关联规则转化为普通用户也能理解的自然语言,成为关注的重点。对于普通用户来说,将关联规则用自然语言描述出来是最容易理解的。本文利用概念图和自然语言生成技术相结合的方法实现关联规则的自然语言直观表达,将关联规则挖掘结果自动转化为大众化的自然语言句子,使得不具备数据挖掘知识的普通用户可以理解挖掘结果表达的含义。本文的主要工作内容和创新点如下:1)提出关联规则的概念图表示方法。利用概念图强大的表达能力和自然语言生成技术将关联规则解释为自然语言。首先,借助领域数据库识别关联规则中的概念和概念结点。然后,通过已经确定的概念图的概念结点、概念关系组成最终的概念图。最后,将使用谓词表达形式的关联规则用概念图表示出来,以方便关联规则的进一步转化。2)提出将概念图转化为自然语言的方法。首先,结合领域知识库中的背景知识,对文档进行规划,确定生成文本涉及的信息和结构,并生成文档计划,概念图在结构上与文档计划有一定的相似性,大大简化将概念图转化为文档计划的难度;然后将文档计划作为输入,通过微观规划进行词汇选择、集结和所选表达生成,输出仍然为树形结构,叶子结点表达的已经包含最后生成的自然语言句子的一部分;最后利用领域IV知识库实现语言和结构的表达,以及背景知识辅助生成自然语言的句子。使得不具备专业知识的普通用户也可以理解挖掘结果,提升系统的可用性。3)设计和实现了基于概念图的关联规则的自然语言表示原型系统,并对系统进行了实验和分析。
其他文献
为了提高燃料量测量的准确性和可靠性。提出了基于数据融合的燃料量软测量方法。主要通过与燃料量相关的测量值和对现场运行数据的统计分析,建立了燃料量软测量模型。利用数据
《中华人民共和国刑事诉讼法》于2012年进行了修订。新法的第182条第2款增加了庭前会议制度,将其作为衔接起诉与审理的程序。新制度旨在保障庭审集中化审理,防止庭审因为一些
兰州市南河道治理情况始终是政府和市民关注的焦点,在多年的治理下南河道的环境质量大幅提高。选择结果导向型环境绩效审计模式对南河道实际治理情况进行审计,探索了绩效审计
随着中国经济的迅猛发展,人们对生活环境、生活质量的要求越来越高,园林绿化工程项目也日渐增多,同时近十几年来房地产市场的繁荣与高速发展,促使全国各地如雨后春笋般,迅速
基于1950-2011年美国休闲服务业的时间序列数据,通过建立VAR模型,将城市化与休闲服务业纳入统一框架之下来考察其动态关系。研究表明,首先,城市化与休闲服务业的产出和就业之
目的探讨m TOR抑制剂依维莫司与紫杉醇共同抑制耐阿霉素乳腺癌(MCF-7/ADR)细胞株生长的机制。方法在培养耐阿霉素乳腺癌细胞株(MCF-7/ADR)中加入一定量的依维莫司和紫杉醇,采
《新华字典》第10版在配例方面存在的问题有:不全面,位置不当,顺序欠佳,生僻或生硬不通,不规范,与释义内容不匹配,多义,与义项的语法属性不一致,有语法问题等。配例的基本要求是契合性
2013年12月28日,全国人民代表大会常务委员会通过对《公司法》修改的决定,在其修改的12处条文中有多达10条关涉公司资本,表明此次的修改集中围绕资本制度的改革,极大放松了对
目的探讨急诊科护士发生躯体暴力的预测线索。方法对四川省和重庆市5所医院的急诊科进行观察性研究,由专人观察和记录患方的行为线索,并根据行为变化是否转化为躯体暴力分为