论文部分内容阅读
比特币的概念由中本聪(Satoshi nakamoto)在一篇名为《Bitcoin:A peer-to-peer electronic cash system》[1]的论文中提出,在该文中,中本聪描述了一种新型的货币体系——比特币。比特币系统是一种去中心化的货币系统,完全不依赖于任何第三方机构(如:政府、金融机构及其他组织团体等),人人都可以参与比特币系统的挖矿与维护。也由于这种新颖的设计思想,比特币很快受到了广泛的关注。在比特币系统中,用户是匿名的,用户交易的帐户代号是经过多重加密和哈希运算得到的一串哈希值,称为地址(Address)。比特币网络中公开显示的交易信息中,只有地址和地址之间的交易额度、时间等信息,没有地址使用者的具体身份信息,从而保证了用户的隐私性。然而匿名性的特性在保护了用户的隐私性的情况下,却也为部分不法份子提供了便利,由于无法与现实世界中的用户的具体身份信息联系起来,不法身子便可以利用比特币系统进行诈骗、洗钱、贩卖违禁品等非法行为。庞氏骗局便是比特币系统中一种典型的诈骗类型。这种欺诈投资利用新加入投资者的投资作为现有投资者的回报。[2]当该投资计划找不到新的投资者时,整个计划就会崩盘。比特币系统中的庞氏骗局危害着大量的投资者,通过数据挖掘技术来检测与庞氏骗局相关的比特币地址是一项非常有必要的工作。本文的第一部分为绪论部分,通过对选题的背景、意义及国内外专家学者在比特币系统中数据挖掘与分析的研究情况的说明,来把握该研究领域的现状和不足,寻找研究的切入点。第二部分为比特币系统、庞氏骗局和数据挖掘技术的相关理论概述,主要界定了比特币、庞氏骗局及数据挖掘的含义,介绍了比特币系统区块的数据结构以及比特币的交易结构,描述了庞氏骗局的相关机制及运营过程,总结了数据挖掘的任务和流程。第三部分是基于数据挖掘技术的比特币庞氏骗局检测建模分析部分。首先根据比特币地址提取到对应的交易数据并构建交易特征得到比特币庞氏骗局数据集,然后对数据的特征进行相关处理,接着选择SVM、Adaboost和随机森林三种算法模型对预处理过后的数据结合不同的采样策略进行建模分析,根据模型的综合性能表现及存在的不足,对模型作出选择和改进。第四部分为了进一步的提升模型对比特币庞氏骗局诈骗地址的检测能力,结合第三部分在不同采样策略下对比特币庞氏骗局的建模分析以及对数据不平衡问题的研究分析,本文改进了Easy Ensemble算法并应用于比特币庞氏骗局诈骗地址的检测,实验结果表明,改进后的Easy Ensemble算法在比特币庞氏骗局检测中表现出了更好的性能。