基于连续属性离散化的属性偏序理论的知识发现

来源 :燕山大学 | 被引量 : 0次 | 上传用户:kiry250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术的迅猛发展和数据库系统的普遍使用,给人们提供了强有力的平台,去更好地利用信息技术进行生产,而且搜集和检索数据的能力也有显著提高。丰富多样的信息感知和采集设备引领我们步入大数据时代。然而,采用什么样的手段和技术从海量数据中发现对决策非常有价值的规则和知识,成为前沿科技亟需解决的关键问题。数据挖掘与机器学习作为处理数据的重要手段,已然成为当今研究的一个热点问题。但是,许多知识发现和数据挖掘的算法得以进行的先决条件就是所要处理的属性值是离散值,而在现实生活中得到的数据常常是连续属性,所以必须对连续属性进行离散化处理。本文通过以UCI数据集的知识发现和规则提取为基础,通过主流连续属性离散化方法的对数据集中的多维属性值进行离散化处理,并且以形式概念分析理论的形式背景的可视化表达为重要手段,运用离散化处理后的数据结果构建二值形式背景,以形式背景分层优化和属性偏序结构图生成方法为关键环节,生成不同数据集的属性偏序结构图,进行知识的规则提取,通过与数据集的分布特点及类标签来比较,对离散化方案进行评估。主要内容如下:1)建立了基于形式背景的知识表达原理的混合数据集成框架,实现各种数据在一个框架下可视化表示和基于属性偏序结构理论实现的数据挖掘。2)研究了基于优化形式背景生成偏序结构原理的知识发现数学方法,生成了基于属性覆盖对象(或者对象覆盖属性)原理的数据偏序结构图。3)针对现有离散化算法在高维数据处理中的局限性,研究了一种基于非线性降维技术的高维数据离散化方法-改进局部线性嵌入算法,实现基于连续属性离散化的属性偏序理论的知识发现。本文通过对UCI数据集的降维及离散化处理后,有着更高精度的知识,简化了复杂的知识规则,对大数据的知识规则提取及可视化有重要意义。
其他文献
本文通过对荣华二采区10
期刊
2019年12月25日,公安部在京召开新闻发布会,通报全国公安机关开展“云剑”行动工作情况.rn公安部新闻发言人郭林介绍,近年来,随着我国金融、通信、互联网的快速发展,以电信网
期刊
目前,车辆进库加油采取人工填单计量,油耗则根据油箱标尺刻度读取。这种用进库加油量衡量、代替实际营运耗油量的方法,误差相当大,计量不科学,无法计及诸如少加油多填数或多加油少
学位
为获得新鲜的水产品,必须提高水产品的保鲜技术,而我国近海船舶捕捞业的保鲜技术还停留在预先装载淡水块冰的传统方法上。为促进我国渔业生产的现代化,本文研制了直接使用海水的
2月19日召开的国务院联防联控机制新闻发布会上提出,对疫情较为严重的地区,稳妥有序地推进复工复产;对疫情较轻的其他地区,努力实现全面复工复产.这一原则,成为当前全国各地
期刊
作为一种绿色照明光源,大功率LED已经获得人们高度认可,并在各种照明领域中广泛应用。然而目前LED封装制造工艺中还存在诸多技术问题,严重地阻碍其进一步发展。本文对LED封装中
据统计,脊髓损伤(Spinal Cord Injury, SCI)瘫痪患者人数逐年递增,已成为“一个亟需关注和照顾的特殊社会群体”。但由于脊髓再生能力微弱,目前尚未有可直接修复损伤的有效措
为了满足越来越严格的柴油机排放法规的要求,各国生产厂商和研究机构都致力于将汽油机四气门技术应用到柴油机上。本文主要介绍了6M增压中冷柴油机改为四气门后提高功率、降
节约能源和降低排放是内燃机工作者追求的目标。内燃机缸内空气运动对混合气形成和燃烧过程有着重大影响,也影响着发动机的动力性、经济性、燃烧噪声和有害气体的排放。柴油机
聚乙烯醇(PVA)是一种无色、无腐蚀性、无毒、可生物降解的水溶性有机高分子,在工农业以及包装领域有广泛应用。目前我国聚乙烯醇在材料领域的研究非常热门,但在聚乙烯醇接枝改