面向思维主题发现的概念对分类研究

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:poilkjqwe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 数据挖掘又称数据库中的知识发现(Knowledge Discover in Database ,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的,先前未知的并有潜在价值的信息的非平凡过程。当前数据挖掘所面临的困境之一在于任务的确定和挖掘对象信息的表征仍由数据分析人员主观完成。思维主题发现作为一种全新的数据挖掘问题提取方法能够推动数据挖掘技术应用的进一步发展。本文提出的概念对分类研究则有利于大大提高思维主题发现的效率。
  [关键词] 数据挖掘;思维主题发现;分类;概念对
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 17. 098
  [中图分类号] TP391 [文献标识码] A [文章编号] 1673 - 0194(2016)17- 0175- 03
  0 引 言
  当今世界,信息革命越来越多地改变着我们生活方式的同时也让我们置身于一个信息爆炸的时代。数据挖掘这一全新领域正是随着信息的越来越增多而孕育而生,吸引了无数的研究者从事于这一领域的研究工作,众多的数据挖掘领域专家提出了很多非常好的数据挖掘方法和算法。如今,数据挖掘的理论研究在各方面都已经取得比较大的突破,但是数据挖掘走向应用还面临着一系列亟待解决的问题。其中如何快速地自动地解决数据挖掘任务的确定和挖掘对象信息的表征这一难题成为数据挖掘研究人员的比较关注的问题之一。思维主题发现技术对于数据挖掘应用的问题提取起到非常好的效果,但是该算法的实验效率还有待进一步提高。
  1 面向思维主题发现的概念对
  1.1 概念对的定义
  定义 概念对(Concept Pair,CP)
  概念对CP=表示概念之间的高强度关联关系。认知主体从概念ci,通过想象和联想直接关联到概念cj,其中概念ci为概念对CP=的前驱概念,概念cj为概念对CP=的后续概念。
  概念对CP=存在偏序关系。在概念对CP=中,概念ci为抽象程度高的高层概念,概念cj为抽象程度低的低层概念。概念对CP=的偏序关系为从高层概念ci指向低层概念cj。
  定义 概念集(Concept Set,CS)
  概念集CS是指概念对集CPS中所有概念对所包含的概念的全集,CS={c|c∈CPandCP∈CPS}其中c表示概念,CPS表示概念对集。
  思维主题发现技术在获得满意的概念对组成的概念集之后,会将数据挖掘任务所涉及的全部概念,按照从抽象到具体、从整体到部分的顺序,自顶向下形成具有一定层次关系的概念序列集合,称为思维序列。而在这过程中担负中间桥梁作用的概念对的质量好坏直接影响到所形成的思维序列的好坏以至于最后思维主题发现结果的好坏。因此在由概念对得到思维序列之前非常有必要对概念对本身以及由其所组成的概念对集利用数据挖掘的方法进行处理得到令人满意的、高质量的概念对以及概念对集。
  1.2 概念对的特点
  通过上节的描述,我们可以看到概念对是以成对形式存在的、抽象的、存在偏序关系的词对。而且基于数据挖掘任务问题描述的概念对集会是一个数据容量不大的集合。因此我们总结概念对以及由概念对组成的概念对集的特点如下:
  (1)概念对是由各种类型的词组成的;
  (2)概念对是由词成对存在的;
  (3)概念对的词之间存在偏序关系;
  (4)概念对所谓的概念是有抽象意味的;
  (5)概念对集是一个数据容量不大的集合。
  通过对概念对的特点进行分析以及概念对形成思维序列和最终得到思维主题发现结果的要求选择合适的数据挖掘分类方法对概念对进行数据层面上的处理,使之进行后续的思维主题发现过程能够大幅度地提高算法效率。
  2 数据挖掘分类与自然语言处理
  分类(Classification )是数据挖掘中的一个重要的概念。数据分类一般分为两个过程。第一是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。第二是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。
  一般而言,自然语言处理即是让计算机以字、词、句、篇章为单元,对相关的输入、输出进行识别、分析、理解与生成等进行加工和操作的过程。
  2.1 分类的种类及特点
  分类作为数据挖掘研究的一个重点领域,经过无数研究人员的努力提出了很多算法,按大的方向分类主要有:决策树、关联规则、贝叶斯、神经网络、规则学习、k-临近法、遗传算法、粗糙集以及模糊逻辑技术等[5]。
  2.1.1 决策树
  决策树学习在求解分类问题的方法中是应用最广的归纳推理算法之一。它是一种逼近离散函数值的方法,分类精度高,操作简单,并且对噪声数据有很好的健壮性,因而成为使用的并且比较流行的数据挖掘算法。它的最大优点是在学习过程中不需要使用者了解很多背景知识,只要训练样本集能够用“属性—值”的方式表达出来就能使用决策树学习算法分类。
  2.1.2 遗传算法
  遗传算法是模拟生物进化过程的全局优化方法,将较劣的初始解通过一组遗传算子(繁殖——已选择、交叉——即重组、变异——即突变),在求解空间按一定的随即规则迭代搜索,直到求得问题的最优解。遗传算法在数据挖掘领域的主要应用有:①用它和BP算法结合训练神经网络,然后从网络提取规则;②分类系统的涉及,如编码方式、信任分配函数的设计以及遗传算法的改进等。
  2.1.3 神经网络   神经网络是大量的简单神经元按一定规则连接构成的网络系统。它能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获得的知识存储在网络各单元之间的连接权中。神经网络主要有前向神经网络、后向神经网络和自组织网络。在数据挖掘领域,主要采用前向神经网络和自组织网络。
  2.1.4 贝叶斯算法
  贝叶斯分类是统计学的分类,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,…,Xn}表示,其中Xk是属性Ak的值。所有的样本分为m类:C1,C2,…,Cn。对于一个类别的标记未知的数据记录而言,若P(Ci/X)>P(Cj/X),1≤j≤m,j≠i ,也就是说,如果条件下X下,数据记录属于Ci类的概率大雨属于其他类的概率的话,贝叶斯分类将把这条记录归类为Ci。
  2.2 自然语言处理
  自然语言处理可以大致分为两个部分:自然语言理解和自然语言生成。前者强调让计算机理解人们借助文字或语音表述的语言,后者则关注让计算使用人类可以理解的方式——文字或语音——表达意思。一般而言,自然语言处理即是让计算机以字、词、句、篇章为单元,对相关的输入、输出进行识别、分析、理解与生成等进行加工和操作的过程。自然语言的计算机处理大体可以分成四个层次:
  (1)文字和语言即基本语言信息的构成及其规律;
  (2)语法及语言的形态结构研究;
  (3)语义即语言与它所指的对象之间的关系;
  (4)语用即语言与它的使用者之间的关系。
  自然语言处理的技术和思路纷繁复杂,国际上有各种各样的研究方向,本文拟定处理的对象为中文书面文本数据,结合实际需要,在此仅从中文分词技术以及文本挖掘技术两个方面进行综述。
  3 概念对的分类处理
  3.1 概念对分类
  要对概念对进行分类研究,首先应当对概念对的特点进行细致地分析,基于概念对的特点以及数据挖掘分类各个经典算法所能特别解决的问题偏好。本文主要针对概念对的横向与纵向两方面进行分类处理。而对概念对进行分类所依据的影响因子由于论文研究进展现暂列举以下情况:
  由于概念对是由不同词性(如:名词,动词)、不同词性跨越(如:从名词联想到动词)、概念对获得效率(依据分词难易情况来分),所以在进行数据挖掘的分类处理过程中,可以以这些为分类属性影响因子对概念对进行分类研究。
  3.2 分类方法的组合
  目前发展较成熟的几种分类算法如决策树、关联规则分类、神经网络、贝叶斯方法、遗传算法等数据挖掘分类算法。将多种不同分类算法结合在一起进行数据挖掘的分类研究是当前数据挖掘的一个研究热点领域,多种不同的算法不但能够互相弥补之间的缺点而且能够发挥算法自身在某一类情况下对特定研究对象所具有的优势,因此,本文研究尝试多种不同分类算法以不同形式地结合提高对概念对分类效果。
  4 总结与展望
  概念对作为一个为解决数据挖掘应用而被提出来的新的概念,研究者对之研究分析比较少,作者首先分析概念对的特点然后再从数据挖掘经典的算法中寻求适合对概念对进行处理的经典算法并对算法根据概念对的特点进行进一步的优化完善,利用新完善好的分类算法来处理概念对。对概念对的分类无疑能够得到不同等级、不同种类的概念对,用高等级、特定种类的概念对进行思维流程发现,无疑能够得到优质的结果,提高思维流程发现技术对数据挖掘应用中的问题解决的效率。通过对概念对的质量好坏分类能够预测思维主题发现所得到结果质量的好坏。利用高质量的概念对进行思维序列的产生自然能够得到高质量的思维序列,良性循环之下得到高质量的问题空间最终提高思维流程发现技术的整体效果。
  未来对概念对分类需要更多考虑分类对于概念对之间:
  (1)契合度的度量以及区分;
  (2)对思维流程技术效率的提升;
  (3)概念对获取指导性导向。
  主要参考文献
  [1]Han J W,Kamber M. Data Mining:Concepts and Techniques[M]. Beijing, China: China Machine Press,2006.
  [2]陈学昌.数据挖掘应用中的思维流程发现技术[D]. 北京:北京科技大学,2012.
  [3]谈恒贵,王文杰,李游划,数据挖掘分类算法综述[J].微型机与应用,2005(2).
  [4]何中市.自然语言处理与统计语言模型[J].外国语言文学研究,2004(6).
  [5]刘秀娟,田川,冯欣.数据挖掘分类技术研究与分析[J].现代电子技术,2010,33(20):86-88.
  [6]P K Agarwal and C M Procopiuc. Exact and Approximation Algorithms for Clustering[J].Algorithmica,2002,33(2):201-226.
  [7]史忠植. 认知科学[M]. 合肥:中国科学技术大学出版社,2008.
  [8]何军, 刘红岩, 杜小勇. 挖掘多关系关联规则[J].软件学报,2007(11).
  [9]Hang Li, Kenji Yamanishi. Topic Analysis Using a Finite Mixture Model[J]. Information Processing and Management,2003,39(4):521-541.
其他文献
现代职业教育目标是培养学生创新意识、动手操作实践技术能力使学生更加适应社会的需求。农业微生物实训课是种子专业课程专业基础课程,在培养学生动手能力创新能力中起着至关
本文分析了剪力墙裂缝成因,提出了具体的防治措施,供大家参考。
近年来,我国农村金融虽然得到了较快发展,但一些影响农村金融发展的深层次问题和矛盾也日益突显,农村金融风险大、风险分散和补偿机制的缺乏成为影响农村金融资源聚集和农村金融
在柳州半导体材料厂,工人说,“刘老师能和我们打成一片。”领导说:“刘老师对我厂促进很大。”技术员说:“刘老师真是做到以厂为家。”学员说;“刘老师是管教管导的好老师。”这是
[摘 要] 现现代大学制度建设的核心是实现高校权力生态的民主化。地方高校权力生态的痼疾是行政性治理权力过于强势,挤压了学术群体的权力空间。权力体系现代化是优化地方高校权力生态的基本路径。  [关键词] 地方高校;权力生态;优化路径  [中图分类号] G420 [文献标识码] A [文章编号] 1673 - 0194(2016)15- 0232- 02  现代大学制度就是保障完全实现大学在现代条件下
我们要用几年来教育革命的丰硕成果,迎头痛击教育界右倾翻案风否定教育革命的奇谈怪论,迎头痛击资产阶级复辟势力的猖狂进攻。
【正】 万里山河红旗展,八亿人民尽开颜。 在举国上下一致欢呼我们伟大、光荣、正确的中国共产党又有了英明领袖华国锋主席的大喜日子里,全国亿万人民热烈地赞颂以华国锋同志
2010年以来,国内粮、肉、蛋、菜等农产品价格不断上涨,有些学者认为农产品价格上涨可能导致新一轮通货膨胀,也有学者认为农产品价格上涨不是通货膨胀的主要原因,还有学者认为农产
随着社会的发展,银行内部各分行之间、各银行之间、银行与政府机关之间的金融数据交互越来越频繁,而其中的信息管理平台的设计语言、操作系统以及硬件平台各不相同,如何实现这些
在反击右倾翻案风斗争取得伟大胜利的日子里,我们以无比喜悦的心情迎来了毛主席《五·七指示》十周年的光辉节日.十年前,毛主席在光辉的《五·七指示》中指出,学生“以学