领域知识在辅助知识发现过程中的初始聚焦问题研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:zhaoxiufen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用于数据分析与挖掘的数据可能包含数以百计的属性,其中大部分属性与数据挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留下不相关属性,会导致知识发现的模式质量很差。此外,不相关或冗余的属性增加了数据量,减慢挖掘进程。如何在大量属性中选择与知识发现任务相关的属性数据,从而提高知识发现的效率,完成知识发现的聚焦问题,是本文的主要研究内容。本文将领域知识应用于知识发现的初始聚焦问题上,采用基于粗糙集理论的属性约简算法通过属性约简来完成知识发现的初始聚焦问题,其主要内容和创新如下:1.研究了领域知识与知识发现的关系,领域知识在知识发现各阶段的作用,重点研究了应用于知识发现初始聚焦问题的领域知识的分类、表示和存储,以及领域知识在知识发现初始聚焦问题上的应用算法;2.为了提高分类的准确性,重点研究了基于粗糙集理论和条件熵的离散化算法;3.在对一般的可辨识矩阵算法研究的基础上提出了改进算法,去掉了可辨矩阵中不起作用的重复元素,降低了算法的时间复杂度,提高了算法的运行效率;4.研究了基于属性重要性的启发式算法,其中重点研究了基于信息熵的属性约简算法,提出了基于领域知识权重大小的属性约简算法,加入了用户的偏好,方便了算法与领域专家的交互;5.在此基础上,开发了基于领域知识的知识发现初始聚焦系统,将该系统应用于铝电解槽生产数据的分析中,取得了良好的效果。
其他文献
随着Web信息资源的迅速增加,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,是个迫切需要解决的问题。由于自然语言的模糊性和用户信息需求的随机性和动态性,
在基于UML的软件开发过程中,各种UML图形从不同侧面描绘着所开发的软件系统,这些图形之间存在着信息的重叠,从而导致UML模型的一致性问题。UML模型的一致性问题也是建模过程中一
GUI测试多采用基于规约(Specification)的方法,即检查软件实现是否与规约一致。这种测试通常先基于规约建立测试模型,然后再在模型的基础上生成测试用例。当前描述GUI的测试模
随着国民经济的飞速发展,人们对通信业务的需求不断增加,对服务质量的要求也不断提高。电信运营支撑系统和运维支撑系统接口的结构化运行模式已不能满足市场发展的需求,迫切
聚类作为挖掘数据结构信息的有效工具之一,已被广泛应用于图像处理、生物信息学与数据挖掘等众多领域。根据在聚类目标函数中是否引入特征权重,可将聚类算法分为传统聚类算法
网络广泛存在于自然界和人类生活中。网络中的各种有害传播给经济、社会、生态等带来巨大挑战,寻找有效的干预策略实现对网络传播的控制是一个重要的研究问题。本文从两个方
近年来,随着医学成像技术的发展,从神经影像中发现对脑疾病敏感的生物标记和结构或功能连接特性,并用于脑疾病的分类,已成为一个新的研究热点。基于数据挖掘和机器学习的技术
光波分复用(WDM)使一条光纤链路可以互不干扰地同时传输多种不同频率的光波信号,从而提高光纤带宽的利用效率。目前,WDM已经成为构建高性能网络的一项重要技术。HORNET是为城域
本课题实现在嵌入式Linux下IDE硬盘的驱动,实现对IDE硬盘的管理。在此基础之上,实现简易的FAT16文件系统,满足一般的读写操作要求;充分利用Linux资源,完成了在ARM9嵌入式平台
后缀数组构造算法是建立大文本全文索引最主要的方法之一,在网络Web搜索以及生物信息学(基因数据库)等领域,有极其重要的应用。由于这方面应用处理的数据是数于亿计的字符,高效