论文部分内容阅读
随着我国信用体系的刚刚起步,征信行业需要得到尽快的发展。征信机构由于处于大数据节点的位置较高,如果它们保有数据遭到攻击会或者丢失、破坏,很有可能对被征信者带来不小的风险。那么怎样才能从征信机构的角度来尽量减少数据储存的风险。实际上除了征信行业收集我们的数据,当我们注册或者使用各种网站时,我们在网络上也提交了各种各样的个人相关数据。这些数据同样也保存在数据库中,也会和征信业一样给我们带来风险。但是这些数据却不像在征信行业那样十分可控,我们无从知道我们的数据会不会被精心的保护。我们需要通过什么方法来知道我们提交或者不经意使用的数据会给我们带来多大的风险呢。本文将寻找数据在不同行业间出现的频率,通过聚类的方法来得出数据之间的相关性。在了解数据之间的相关性以后,我们就可以判断哪些数据具有更重要的价值,那些数据需要尽量避免同时出现在一起。文中将给出通过聚类方法后得到的风险估计数值,再由聚类的效果(文中以图表的形式给出)可以很容易知道那些数据在一起被提交的时候带来了更大的风险。比如当手机号码、银行卡号码、身份证号码同时丢失很容易造成网银被盗付。还有在物联网时代,什么样的信息风险更加凸显,什么样的信息组合取代了目前的多种信息组合,并且带来了同样的风险。当我们的一部分信息被泄露,要注意一定要避免另组合中一些信息的泄露。同时也对各种收集信息的机构进行聚类分析,以数值的方式给出这些机构在大数据节点中的层级。我们可以通过文中给出的直方图看出,这些机构在不同的数据节点所扮演的风险承担者的程度。通过以上的分析,使得我们更了解该如何对信息进行保护,避免遭到不必要的损失。也对现在以大数据为导向的互联网提出自己的看法,大数据究竟给我们的生活带来了什么样的改变,以及在未来从互联网大数据时代到物联网大数据时代,这些有我们所产生的数据是否能良好的为我们服务?