论文部分内容阅读
随着社交网络功能逐渐完善,社交网络用户数量呈现连年增加趋势,用户可以使用不同的社交网络实现不同的需求。不同的社交网络具有不同的服务功能,各个社交网络服务商出于安全和利益的考虑,一般不会允许自己的网站用户帐户同其他网站的用户帐户相关联,从而造成了资源不能充分利用。因此,对属于同一实体用户的多个用户帐户进行关联具有重要意义和价值,引起了研究人员的广泛关注?本论文主要研究利用社交网络用户帐户生成的文本内容数据提取用户行为特征,进而利用用户帐户关联算法实现对属于同一实体用户的多个用户帐户进行关联。首先对系统的总体结构进行设计,将系统划分为两部分,即数据获取子系统和用户帐户关联子系统。然后依次对数据获取子系统和用户帐户关联子系统进行设计与实现,重点对网络爬虫的设计,用户行为特征的提取以及用户帐户关联算法的改进进行了研究。最后通过实验对系统进行测试,并对系统输出结果进行分析。本论文的工作重点包括以下三个方面:(1)设计了一款具有动态操作功能、增强型页面解析功能和高效数据库访问功能的能够快捷、方便的爬取社交网站上用户帐户生成文本内容的网络爬虫。(2)基于N-Gram提出了新的语言书写特征;并对语言书写特征进行筛选,过滤掉冗余特征,提高了系统的处理速度和健壮性。(3)提出了一种基于单类分类器的社交网络用户帐户关联算法,并对所提出的算法进一步改进,提高了系统的实用性和准确性。最后,通过爬取社交网站Google+、Twitter和Facebook上用户帐户数据集并根据影响系统的各个参数制作不同的系统测试用例对系统进行测试,并通过计算系统输出结果的准确率、召回率和F-measure值对系统性能进行分析评估。在最佳参数配置时,系统输出结果的准确率能达到70%以上,召回率达到75%以上,F-measure值达到70%以上。实验结果表明随着用户帐户所包含的数据量越多,系统的各项性能表现越好。