论文部分内容阅读
【摘要】 随着互联网技术的不断发展,互联网诈骗呈现持续高发态势,诈骗分子呈现出专业化、团伙化的特点。为了更好识别诈骗团伙,通过接入诈骗事件,提取涉诈资源之间的关联关系,涉诈资源的行为特征,进行关联分析和相似度分析,得到涉诈资源关联图,再基于LPA算法进行诈骗组织切分得到准确结果。
【关键词】 互联网 网络诈骗 安全分析模型
一、背景
近年来,我国电信网络诈骗总体形势严峻,诈骗分子呈现出专业化、团伙化的特点,警方抓获的电信诈骗团伙,都多达数百人,诈骗设备、诈骗卡号、诈骗账号都是数以万计[1]。随着移动互联网的普及,国家和公安机关对反诈的宣传,单纯依靠语音、短信或网络诈骗的场景越来越少,诈骗分子往往是三者结合才能诈骗成功[2]。这些诈骗分子可能实施了多次诈骗才被抓获,而且还有部分诈骗分子隐藏在其他地市或国外,诈骗设备也经过了多次更新,仅凭一次诈骗案件难以评估诈骗团伙整体规模。现有技术方案中基于单一场景的诈骗团伙分析已经越来越难以准确地挖掘出全部诈骗团伙了[3]。本方法提出一种基于语音话单、短信话单和上网日志进行关联分析发现诈骗团伙的方案。通过接入诈骗事件,提取涉诈资源之间的关联关系,涉诈资源的行为特征,进行关联分析和相似度分析,得到涉诈资源关联图,再基于LPA算法进行诈骗组织切分得到准确的诈骗组织。
二、方法
为了更好的识别诈骗团伙,设计基于语音话单、短信话单和上网日志进行关联分析的方案。通过接入诈骗事件,提取涉诈资源之间的关联关系,涉诈资源的行为特征,进行关联分析和相似度分析,得到涉诈资源关联图,再基于LPA算法进行诈骗组织切分得到准确的诈骗组织。
本方案的基本设计概念和处理流程如下图所示:
2.1诈骗事件接入
分析系统需要接入多种诈骗事件:
基于GOIP、多卡宝等多种远程部署的语音诈骗事件;
基于短信网关群发诈骗短信的短信诈骗事件;
基于社交网络的杀猪盘诈骗、刷单诈骗等网络诈骗事件。
对语音诈骗事件需要获取以下主要字段:卡号、对方卡号、IMEI、时间、地理位置。
对短信诈骗事件需要获取以下主要字段:卡号、对方卡号、IMEI、时间、地理位置。
对网络诈骗事件需要获取以下主要字段:卡号、IMEI、社交账号、时间、地理位置、流量大小。
2.2诈骗资源关联分析
诈骗团伙分析包括两种方式:直接关联分析和相似度分析。
2.2.1直接关联分析
直接关联分析,通过涉诈资源之间的直接联系建立关联图,如下:
通过卡号共享进行关联:多个诈骗卡号都给一个受害者卡号拨打电话;诈骗卡号之间的通信。
通过设备进行关联:多个卡号共用了一个设备,即一IMEI多卡;一个卡号用在了多个设备上,及一卡多IMEI。
通过社交账号进行关联:多个卡号共用了一个账号,即一账号多卡;多个账号共用了一个卡号,即一卡多账号;多个卡号共用了一个设备,即一设备多卡;多个设备共用了一个卡号,即一卡多设备。
通过上述关联分析发现的涉诈资源节点和节点之间的连线用图数据库存储。后面不断接入新的诈骗事件,对诈骗事件进行接入,获取涉诈资源阶段,按照上述流程添加到图数据库,可发现更多的攻击组织。
2.2.2相似度分析
一个诈骗团伙作案都有相似性,包括空间上、时间上、行为上。取以下行为作为判定涉诈资源之间的相似性:
地理位置:換算为经度和维度。
活跃时间分布属性:按时间段划分24h为24个数值,若有话单则为1,否则为0,得到一个24元素的数组。分别计算语音活跃时间,上网活跃时间。
连续工作时长:计算一整天的工作时长。
上网流量:分为上行流量大小和下行流量大小。
上网类型分布:按照上网日志的域名类型划分为9类域名:咨询门户类网站、企业品牌类网站、交易类网站、社区网站、办公及政府机构网站、互动游戏网站、有偿资讯类网站、功能性网站、综合类网站。若有则为1,否则为0,得到一个9个元素的数组。用余弦相似度计算涉诈资源之间的相似度,假设X1,X2为2个涉诈资源,X1X2相似度如下:
2.3 LPA诈骗组织切分
2.3.1团伙标签初始化
LPA算法全称label propagation algorithm,即标签传递算法,是一种图聚类算法,如图3,节点代表团伙标签,边上的黑色数字代表边的权重。
各节点和边初始化方式如下:节点初始化为1,团伙标签初始化为自己,边的初始化分为两种计算方式:
直接关联分析的边关联程度用反正切函数计算,假设发现涉诈资源A和B之间有x次直接关联,则关联度为arctan(x)。相似度分析的边关联程度计算直接用余弦相似度。
2.3.2团伙标签传递
每个涉诈资源节点向邻居节点发送消息,消息权重为涉诈资源节点权重*边权重*分割系数(涉诈资源节点出度的倒数),每个涉诈资源节点对收到的权重累加,更新涉诈资源节点标签为累加权重最大的团伙标签,若多个涉诈资源节点的团伙标签的权重相等就随机选一个。反复执行发送消息和接收消息,直到标签稳定算法终止,最后相同标签的节点即为一个团伙。如下图4分析得出团伙1和团伙2。
三、结束语
技术创新是一把双刃剑,人工智能技术在不断促进防范治理技术发展和进步的同时,也开始被诈骗分子所利用,带来了一定程度的风险隐患。特别是随着基于人工智能的“深度伪造”、群聊群控等诈骗手法的传播和应用,这些风险被进一步集聚、放大,引起了社会各界的关注[4]。通过实践,本方法可有效甄别诈骗团伙,准确率高,覆盖范围广,帮助相关部门快速掌握诈骗团伙动态,有效挽回群众损失。下一步,我们将进一步完善改进方法,创新技术。
参 考 文 献
[1] 蒲黎明. 电信诈骗语义分类系统的设计与实现[D]. 北京:北京邮电大学,2019.
[2] 李易.反电信网络诈骗全民指南[M]. 上海:上海社会科学院出版社,2016.
[3] 李航.统计学习方法[M]. 北京:清华大学出版社,2012.
[4] 电信网络诈骗治理与人工智能应用白皮书[M].北京:中国信息通信研究院安全研究所,2019.
【关键词】 互联网 网络诈骗 安全分析模型
一、背景
近年来,我国电信网络诈骗总体形势严峻,诈骗分子呈现出专业化、团伙化的特点,警方抓获的电信诈骗团伙,都多达数百人,诈骗设备、诈骗卡号、诈骗账号都是数以万计[1]。随着移动互联网的普及,国家和公安机关对反诈的宣传,单纯依靠语音、短信或网络诈骗的场景越来越少,诈骗分子往往是三者结合才能诈骗成功[2]。这些诈骗分子可能实施了多次诈骗才被抓获,而且还有部分诈骗分子隐藏在其他地市或国外,诈骗设备也经过了多次更新,仅凭一次诈骗案件难以评估诈骗团伙整体规模。现有技术方案中基于单一场景的诈骗团伙分析已经越来越难以准确地挖掘出全部诈骗团伙了[3]。本方法提出一种基于语音话单、短信话单和上网日志进行关联分析发现诈骗团伙的方案。通过接入诈骗事件,提取涉诈资源之间的关联关系,涉诈资源的行为特征,进行关联分析和相似度分析,得到涉诈资源关联图,再基于LPA算法进行诈骗组织切分得到准确的诈骗组织。
二、方法
为了更好的识别诈骗团伙,设计基于语音话单、短信话单和上网日志进行关联分析的方案。通过接入诈骗事件,提取涉诈资源之间的关联关系,涉诈资源的行为特征,进行关联分析和相似度分析,得到涉诈资源关联图,再基于LPA算法进行诈骗组织切分得到准确的诈骗组织。
本方案的基本设计概念和处理流程如下图所示:
2.1诈骗事件接入
分析系统需要接入多种诈骗事件:
基于GOIP、多卡宝等多种远程部署的语音诈骗事件;
基于短信网关群发诈骗短信的短信诈骗事件;
基于社交网络的杀猪盘诈骗、刷单诈骗等网络诈骗事件。
对语音诈骗事件需要获取以下主要字段:卡号、对方卡号、IMEI、时间、地理位置。
对短信诈骗事件需要获取以下主要字段:卡号、对方卡号、IMEI、时间、地理位置。
对网络诈骗事件需要获取以下主要字段:卡号、IMEI、社交账号、时间、地理位置、流量大小。
2.2诈骗资源关联分析
诈骗团伙分析包括两种方式:直接关联分析和相似度分析。
2.2.1直接关联分析
直接关联分析,通过涉诈资源之间的直接联系建立关联图,如下:
通过卡号共享进行关联:多个诈骗卡号都给一个受害者卡号拨打电话;诈骗卡号之间的通信。
通过设备进行关联:多个卡号共用了一个设备,即一IMEI多卡;一个卡号用在了多个设备上,及一卡多IMEI。
通过社交账号进行关联:多个卡号共用了一个账号,即一账号多卡;多个账号共用了一个卡号,即一卡多账号;多个卡号共用了一个设备,即一设备多卡;多个设备共用了一个卡号,即一卡多设备。
通过上述关联分析发现的涉诈资源节点和节点之间的连线用图数据库存储。后面不断接入新的诈骗事件,对诈骗事件进行接入,获取涉诈资源阶段,按照上述流程添加到图数据库,可发现更多的攻击组织。
2.2.2相似度分析
一个诈骗团伙作案都有相似性,包括空间上、时间上、行为上。取以下行为作为判定涉诈资源之间的相似性:
地理位置:換算为经度和维度。
活跃时间分布属性:按时间段划分24h为24个数值,若有话单则为1,否则为0,得到一个24元素的数组。分别计算语音活跃时间,上网活跃时间。
连续工作时长:计算一整天的工作时长。
上网流量:分为上行流量大小和下行流量大小。
上网类型分布:按照上网日志的域名类型划分为9类域名:咨询门户类网站、企业品牌类网站、交易类网站、社区网站、办公及政府机构网站、互动游戏网站、有偿资讯类网站、功能性网站、综合类网站。若有则为1,否则为0,得到一个9个元素的数组。用余弦相似度计算涉诈资源之间的相似度,假设X1,X2为2个涉诈资源,X1X2相似度如下:
2.3 LPA诈骗组织切分
2.3.1团伙标签初始化
LPA算法全称label propagation algorithm,即标签传递算法,是一种图聚类算法,如图3,节点代表团伙标签,边上的黑色数字代表边的权重。
各节点和边初始化方式如下:节点初始化为1,团伙标签初始化为自己,边的初始化分为两种计算方式:
直接关联分析的边关联程度用反正切函数计算,假设发现涉诈资源A和B之间有x次直接关联,则关联度为arctan(x)。相似度分析的边关联程度计算直接用余弦相似度。
2.3.2团伙标签传递
每个涉诈资源节点向邻居节点发送消息,消息权重为涉诈资源节点权重*边权重*分割系数(涉诈资源节点出度的倒数),每个涉诈资源节点对收到的权重累加,更新涉诈资源节点标签为累加权重最大的团伙标签,若多个涉诈资源节点的团伙标签的权重相等就随机选一个。反复执行发送消息和接收消息,直到标签稳定算法终止,最后相同标签的节点即为一个团伙。如下图4分析得出团伙1和团伙2。
三、结束语
技术创新是一把双刃剑,人工智能技术在不断促进防范治理技术发展和进步的同时,也开始被诈骗分子所利用,带来了一定程度的风险隐患。特别是随着基于人工智能的“深度伪造”、群聊群控等诈骗手法的传播和应用,这些风险被进一步集聚、放大,引起了社会各界的关注[4]。通过实践,本方法可有效甄别诈骗团伙,准确率高,覆盖范围广,帮助相关部门快速掌握诈骗团伙动态,有效挽回群众损失。下一步,我们将进一步完善改进方法,创新技术。
参 考 文 献
[1] 蒲黎明. 电信诈骗语义分类系统的设计与实现[D]. 北京:北京邮电大学,2019.
[2] 李易.反电信网络诈骗全民指南[M]. 上海:上海社会科学院出版社,2016.
[3] 李航.统计学习方法[M]. 北京:清华大学出版社,2012.
[4] 电信网络诈骗治理与人工智能应用白皮书[M].北京:中国信息通信研究院安全研究所,2019.