论文部分内容阅读
近来的这些年里,我们的社会正在发生着翻天覆地变换,科技的发展变幻早已远远超出了我们的想象,尤其是在计算机方面人们对于人工智能的探索又向前迈出了一大步,各种新颖的技术、算法和概念不断的在改变着我们的生活,数据正在以前所未有的速度增长和积累。大数据时代的到来意味着信息系统的进化真正进入诺兰模型的更加完善和成熟的阶段。大数据被看作是最近数十年来最具有革命性和重要意义的里程碑。伴随着大数据时代的来临,如何从复杂的数据环境中找到我们事先未知的关联规则是研究人员共同的目标。由于数据随着时间而不断的产生,数据库中存储的数据成指数倍增长,数据间相互的关联关系也变得复杂起来,从而把那些看起来没有任何联系的数据,通过关联规则挖掘算法而得到其中某些关系的可能性也就越大。通过翻阅大量参考文献和书籍,学习并评判过去的关联规则挖掘算法,将论文整体思想分为主观和客观两个方面进行对大数据关联规则挖掘进行研究,具体内容如下:(1)客观方面主要是通过学习现有的算法生成关联规则中,冗余关联规则的数目要远远多余真正有价值的关联规则数目,冗余规则不仅会妨碍研究人员分析和理解,而且对整体关联规则的利用率也大大降低。针对关联规则冗余的问题,本文提出了一种基于一阶谓词公式去除商务数据冗余关联规则的方法,利用一阶谓词公式来表示关联规则,通过等价公式进行转换,并利用算法和矩阵等价将谓词公式转换为邻接矩阵,然后利用冗余规则算法进行删除。实验的原始数据为UCI数据集,并利用WEKA里的关联规则算法的到关联规则。最后利用MATLAB和Java实现冗余规则的去除。(2)主观方面是从用户兴趣度和领域知识这两个方向来进行研究,针对用户兴趣度,本文将做以下研究:首先通过客观的冗余关联规则算法得到处理后无冗余的关联规则,并对关联规则进行分类,通过把用户所感兴趣的属性或规则作为导向目标,添加模板思想作为用户表达含义的载体,并对模板分类。对主观兴趣度的度量方式优化处理,从而达到完善兴趣度的计算方法。针对领域知识,本文将做以下研究:在数据挖掘过程中利用现已知的领域知识作为冗余规则的评判标准,在生成关联规则的过程中删除冗余规则,并将生成结果的规则作为领域知识加入到领域知识库中,用以引导下次的挖掘过程,使该算法随着运行的次数增多,效率将会越来越高。