【摘 要】
:
针对不确定数据的概率分布难以获取的客观实际,讨论了缺失概率分布的值不确定离散对象的决策树。定义了(条件)概率区间,并证明了(条件)概率区间是可达概率区间;基于可达概率区间,定义了(条件)熵区间,并给出了求解(条件)熵区间的上/下界的方法;采用条件熵区间作为属性选择度量,提出了一种新的不确定决策树,将以0-1划分对象的决策树扩展到以概率区间分配对象的决策树,这样不仅可以处理缺失概率分布的值不确定离散
【机 构】
:
Department of Computer Science and Engineering, School of Information Science and Engineering, Yunna
论文部分内容阅读
针对不确定数据的概率分布难以获取的客观实际,讨论了缺失概率分布的值不确定离散对象的决策树。定义了(条件)概率区间,并证明了(条件)概率区间是可达概率区间;基于可达概率区间,定义了(条件)熵区间,并给出了求解(条件)熵区间的上/下界的方法;采用条件熵区间作为属性选择度量,提出了一种新的不确定决策树,将以0-1划分对象的决策树扩展到以概率区间分配对象的决策树,这样不仅可以处理缺失概率分布的值不确定离散对象,也可以处理确定离散对象。通过在基于UCI数据集的不确定数据集上的实验,证实了不确定决策树是有效的。
其他文献
社会网络中,不仅包括链接结构,还包括内容信息,内容信息表达了社会网络中个体相关的话题、兴趣等语义层面的信息。只考虑链接结构的社区挖掘方法无疑忽视了内容信息的价值。提出了一种结合链接结构和内容信息进行动态社区挖掘的方法,将链接结构和内容表达为矩阵形式,综合历史社区划分结果,使用非负矩阵分解方法进行社区划分,以使社区结果在反映网络的链接特征的同时,还反映话题、兴趣等语义层面的特征。在真实数据集上的实验
基于密度的聚类算法是到目前已提出的多种聚类算法中的一种非常有效的方法,这类算法可以检测数据空间中任意形状的簇,然而目前已有的一些基于密度的算法,如DBSCAN,DENCLUE,因为算法的全局参数问题而不适合处理不同密度的簇;SNN算法则由于需要从k最近邻相似矩阵中重构出共享最近邻图而在效率上有所欠缺.为了更有效率地检测数据集中的簇,提出了一种基于密度流模型的算法DEFAT.算法假设数据集中的每个对
针对无线传感器网络容易受到攻击、数据机密性差等问题,提出一个实现数据机密性的数据聚集协议HCDA.该协议使用端到端密钥对数据加密,确保数据的机密性,中间节点在不解密的情况下将收到的多个加密数据压缩为一个值,并将其映射成唯一的较小正整数继续传输以节约节点的能量消耗.sink通过对接收到的数据解压和解密,获得相关节点的真实数据,从而能够计算任意聚集函数,如MAX,MIN,SUM、查询区间值、第k大数值
提出了一种无线传感器网络中基于子空间划分的分布式Skyline查询算法(subspace dividing-based distributed skyline query algorithm,SDKSA),算法提出了一种基于子空间划分的感知数据存储方法,设立子空间划分策略、数据存储和映射策略,研究了查询执行过程和负载均衡策略。理论分析和实验结果都表明,该算法能够大大减少网络的平均通信量,对网络的规
增量爬取是搜索引擎保持抓取数据新鲜度的重要技术,其实现思路分为朴素同步策略与主动同步策略两种。这两种思路目前在实现上存在着各自的不足,重要原因是其实现框架考量方面的不足。因此对增量爬取过程进行深入分析,界定出增量爬取所需要解决的核心问题;通过泛化解决核心问题的具体方法,定义出实现增量爬取技术的策略框架。基于该框架,可在完整回应核心问题的同时,采用灵活实现策略的具体方法,以保证增量爬取实现方案取得复
图数据结构具有较强的模拟复杂结构的能力,能够很好地表达数据对象之间的关联,广泛地用于各领域非结构化数据建模。为解决大量数据子图查询处理中的不确定情况,本文提出了基于MapReduce的双向匹配查询算法,并提出了有效的索引结构以提高查询算法的效率。最后,在真实数据集和合成数据集上的实验结果证明了算法的正确性、高效性和扩展性。
社交网站作为在线交流的最新形式,吸引了数以亿计的用户,同时产生了海量数据。为此,如何存储大量的用户及其交互信息成为了社交网站的一个挑战。在深入分析了社交网络数据的特点之后,提出了一种用来描述社交网络中用户交互行为的交互关系有向图模型,该模型可以很好地反映用户交互的一些特性;提出了一种采用增量方式对社交网络进行分区的方法,该方法具有很好的可扩展性并能较好地解决数据本地化问题;构建了一套存储、管理与维
如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分。在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担。针对云计算环境,提出了一种基于MapReduce的近似复制文本检测算法,它能够在给定的文本集合与相似度阈值条件下,经过过滤与验证操作后返回所有相似程度不低于该阈值的文本对。真实数据集上的实验结果表明,与现有工作相比,所提算法能更为高效地返
信息社会中在线百科已成为人们获取知识的重要途径,而在线百科的标签系统作为其重要组成部分,不仅可以帮助人们在浏览某张页面时获取其他相关页面的信息,而且对于海量文本分类,以及提高在线百科检索系统的检索效率都有很大帮助.充分利用在线百科页面间的链接关系,提出了一种基于页面间的同质性原理和向量空间模型的全新针对在线百科的标签推荐算法HVSM.该标签推荐算法具有普适性,可在不同在线百科系统间推荐标签.实验结
对象级别的信息检索已经引起越来越多的关注和研究.针对这一研究问题,设计并实现了一个对象级别的关系数据库信息检索方法DBORank,来有效提高关系数据库信息检索效果.DBORank方法从数据库和信息检索两个角度出发,设计了一种灵活有效的评分机制,它既考虑了对象级别数据图的链接结构,又考虑了图中对象结点的内部结构,边的类型和权值,对象内容相关性等因素,同时优化了对象评分的迭代算法.实验表明DBORan