基于粗糙集和Trie树的知识约简方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:sz10088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论作为一种新的处理模糊信息和不确定信息的软计算工具,于1982年由波兰科学家Z.Pawlak创立。知识约简是粗糙集理论研究中的核心内容之一,如何快速有效地对海量数据进行知识约简,并从中挖掘出有效的知识是粗糙集理论研究的一个热点。至今,很多学者已提出了大量关于属性约简和属性值约简的研究方法。但是,现有的粗糙集知识约简算法的时间复杂度较高,对于大数据集的处理效率不高。这大大的限制了粗糙集的实际应用。因此,研究高效的处理海量数据的知识约简方法很有必要。   Trie树是一种树形结构,它是一种哈希树变种,典型应用于统计、排序和保存大量的字符串,因此经常被搜索引擎系统用于文本词频统计。由于它的查询效率比哈希树高,如果把它运用到粗糙集知识约简算法的研究中,则可能得到能处理海量数据的快速知识约简算法。本文结合Trie树查找效率高的特点,开展了基于Trie树以及粗糙集理论的知识约简算法的研究。首先,将Trie树用于求取决策表的正区域中,当决策表中一个对象插入Trie树时,表现为一个从根节点到叶子节点的分支,在叶子节点计算决策表的正区域,在此基础上,结合贪心算法提出了一种时间复杂度较低的属性约简算法。其次,将Trie树用于属性约简后的决策表覆盖计算,由于属性值约简过程中的决策表是一个存在部分缺省值的不完备决策表,当决策表中对象插入Trie树时,必须考虑Trie树中的空值节点与同一层其它兄弟节点的匹配问题,并同样在叶子节点得到决策表的覆盖,利用此覆盖计算方法,提出了一种时间复杂度较低的属性值约简算法。   本文结合Trie树,以提高粗糙集知识约简算法的处理效率为出发点,提出了一种高效的知识约简算法。通过仿真对比实验结果进行分析,本文的知识约简算法处理大数据集的时间效率相对更高,说明了本文算法的有效性。  
其他文献
随着开放获取在科研领域的发展,科研工作者们越来越习惯通过网络来进行文献获取和学术交流。如何在科研文献数量呈现爆炸式增长的情况下,为用户提供方便快捷的论文获取方式,
在大规模的无线传感器网络中,节点基本上采用无源节点并使用电池供电。因此,节点自身能量的有限性与通信距离的局限性将直接影响到整个网络的生命周期。路由协议作为无线传感器
粗糙集理论是一种能够很好处理不确定信息的数学工具。近年来,粗糙集理论在数据挖掘领域得到了越来越多的应用。聚类与属性约简一直是数据挖掘技术中的重点与难点,如何进一步地
Petri网凭借其描述异步并发和图形表示的突出能力成为了系统建模、行为分析的一个有力的工具,其应用也日趋广泛。然而,由其节点过多而引致的“状态空间爆炸”问题则一直是阻碍Petri网发展的瓶颈,尤其是在面对复杂而庞大的系统时,系统分析将会变得非常复杂。源于此,Petri网学者的工作重点之一就是要对Petri网进行有效化简,将Petri网分解为若干相对简单的子网。电网故障诊断是电力系统自动化的重要内容
随着技术的发展和网络规模不断扩大,各种复杂、隐蔽的攻击技术不断出现,这使得现有的入侵检测系统往往显得力不从心。对于大规模的网络数据和复杂的入侵行为,一种比较可行的
近年来,癌症(恶性肿瘤)的发病率和死亡率都不断上升,并成为威胁人类健康的主要疾病。放射治疗是治疗肿瘤的主要手段之一。随着科技的发展,放疗已从二维的立体定向放疗发展到三维适
如今,伴随着数据量地快速增长,海量数据成为困扰企业发展的因素之一。如何有效处理数据,减小数据访问的并发压力,成为大数据解决方案不断发展的动力。MapReduce是分布式计算
网络上的产品评论对消费者和生产厂商都有重要意义。随着国内网络用户的增多,产品评论数量激增,但因缺乏合理的组织方式,导致信息获取困难。本文针对产品中文评论,使用自然语言处
目前无线传感器网络节点仍然使用电池供电,能量资源有限使得如何提高节点能效,延长网络寿命成为了一个重要挑战。而网络拓扑的设计和路由的选择将对节点能耗产生重大的影响。
事件抽取是信息抽取领域中一项重要的研究任务,旨在从含有事件信息的非结构化文本中抽取出用户感兴趣的事件信息。微博是一种通过关注机制分享简短实时信息的广播式的社交网络