【摘 要】
:
数据缺失是一种十分重要而又很常见的数据质量问题.对缺失数据的常见处理方法为估计缺失值或者直接删除缺失记录.这两种方法都只用到了未缺失数据中的信息,而隐含在缺失记录中的信息则被舍弃了.在非随机缺失中各个缺失属性并不是独立的,其中存在着依赖关系.本文使用关联规则挖掘的技术,主要是关联规则挖掘,从发生非随机缺失的数据集中发现属性间的缺失依赖关系.利用发现的依赖关系,可以对数据分析或者信息采集改进提供帮助
【机 构】
:
解放军理工大学指挥信息系统学院,江苏南京210007
论文部分内容阅读
数据缺失是一种十分重要而又很常见的数据质量问题.对缺失数据的常见处理方法为估计缺失值或者直接删除缺失记录.这两种方法都只用到了未缺失数据中的信息,而隐含在缺失记录中的信息则被舍弃了.在非随机缺失中各个缺失属性并不是独立的,其中存在着依赖关系.本文使用关联规则挖掘的技术,主要是关联规则挖掘,从发生非随机缺失的数据集中发现属性间的缺失依赖关系.利用发现的依赖关系,可以对数据分析或者信息采集改进提供帮助.通过在一个真实数据集上的实验,证明本文的方法可以有效的发现缺失中的依赖关系.
其他文献
社区发现旨在挖掘社会信息网络的社区结构,是社会计算及其相关研究的基础.随着交互式社会信息网络规模的快速增长,传统的社区发现算法难以满足大规模网络的可扩展分析需求.多层社区发现算法如PMetis、Graclus等虽然可以分析包含数百万节点规模的网络,但是小于1/2的粗化缩减比率以及社会信息网络的幂律分布特性极大地制约着该类算法的性能优势.本文提出了一种基于三角形内点同一社区性粗化策略的多层社区发现算
云存储中的敏感数据需要以加密形式存储以确保其安全,属性基加密(ABE)被广泛用于对加密数据的细粒度共享,然而,ABE中存在三类影响数据机密性的问题:(1)用户可以共享他/她的密钥而不被发现;(2)密钥生成中心(KGC)可以生成带有任意属性集或访问结构的密钥;(3) KGC可以用它的主密钥解密任意的密文这三类问题的存在,使得使用ABE的系统中的数据面临极大的安全挑战提出了一个增强云存储中数据机密性的
随着电力企业信息化的加快,企业内部各种信息系统间的异构数据逐渐增多,如何有效的消除这些异构数据之间的语义冲突成为一个热点问题.本文根据电力数据语义冲突的具体情况,提出了一个冲突检测及消减模型,将电力企业内部的异构数据源进行融合,有效地解决电力企业内部数据源语义冲突问题.使用结果表明,该模型可以有效消解异构数据源之间的语义冲突,为电力企业内部及企业间异构数据的融合和共享提供有力的支持。
真实世界中存在很多数据规模大且关联性强的图数据,对其分析和查询能够帮助人们获取巨大价值,而图缓存技术可以有效提高图数据的访问效率和查询效率.本文提出了一种面向大规模数据的图数据预装载缓存策略,采用"基于结点访问日志"和"大度数优先"的两种装载方法,缓存图数据边表的热数据.在图存储系统GolaxyGDB中设计了一个分布式图数据缓存框架,实现了缓存装载、访问、替换和一致性维护策略.实验表明,图数据预装
现有签密方案存在不能向模糊身份的接收方发送数据、且对数据的共享访问控制不够精细,而基于属性的签密也无法自适应地实现机密性、认证性以及机密且认证等不同的安全需求.本文在离散对数和随机预言机模型下提出了一种基于属性的广义签密方案.通过引入属性集,使数据可以凭用户的属性为依据进行分发;通过区分通信双方所持有的密钥,可以提供单独的机密性、认证性和复合的机密性和认证性功能.在DBDH假设下的安全性分析表明方
社会网络中影响力传播的有效抑制是社会网络影响力传播机制研究所关注的问题之一.针对未知影响传播源,或传播源信息具有不确定性的情况,提出面向不确定性影响源的影响力传播抑制问题.首先,作为提高抑制算法效率的有效途径,讨论竞争线性阈值传播模型下,影响源传播能力的近似估计方法,以此为基础,提出有限影响源情况下,期望抑制效果最大化的抑制种子集挖掘算法.其次,对于大尺寸不确定性影响源的情况,为实现算法运行效率和
传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈.对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该算法首先利用PMI(Point-wise Mutual Information)的改进方法确定2元待扩展种子,其次采用左右扩展的方式逐字地把2元待扩展种子扩展至2-n元候选术语(n表示抽取术语的最大长度,可根据需要指定),最后利用两
网络大数据时代的到来使得知识网络中时空信息越来越丰富.现有的知识网络描述模型对知识的时空信息的刻画不足.研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关系推断的准确率.针对以上问题,首先提出了一种包含时空信息的演化知识网络表示模型,然后研究在该网络模型上的关系推断问题,提出了一种基于背包问题的知识间关系推断方法.在多个数据集上的实验证明了所提出的关系推断方法的有效性以及对大规
网络链接预测问题是链接挖掘的一个重要部分,指的是通过已知的网络结构数据预测网络中尚未连接的任意节点间产生链接的可能性.在大数据时代,互联网社会网络和其他复杂网络中的链接预测问题研究成为热门领域.链接预测相关的方法已被广泛地应用于社会网络关系挖掘、个性化推荐和生物制药等领域.在复杂网络的链接预测问题中,通常利用相似性矩阵来表示网络中任意两个节点之间存在链接的可能性,因此相似性矩阵的计算是链接预测中的
大数据平台,因其数据多、价值高和存储集中地特点,已经成为对攻击者非常有吸引力的目标.因此,大数据安全是一个非常重要的研究课题.然而,当前两种保障大数据平台(如Hadoop)数据安全的常见方法各有不足:一种是访问控制,通常由系统软件实现,存在被外部黑客攻破或内部管理员绕过的风险;另一种十数据加密,虽然密码学方法的安全性较高,但加密解密海量数据,增加了额外开销.综上所述,现有方法难以在保护海量数据时既