匿名用户识别方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:suing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户识别实质上是一种去匿名化(De-Anonymization)问题,识别任务中目的一般是根据匿名用户的行为数据从非匿名群体中找到与其最相似的用户。行为数据指用户在各种网络及通信服务中留下的操作痕迹,常常蕴含着各自的行为模式,代表了其在服务消费中的偏好和习惯。本文的研究中根据用户的行为数据,对他们的行为模式进行提取,并通过行为模式之间的匹配识别出匿名用户的身份。本文关注一般性的识别问题,对适用于各种识别场景的通用方法进行了探究。文中首先对基于特征分布直方图的识别方法进行了研究,然后引入行为特征在时间维度上的关联性,并据此提出了基于特征序列的识别方法。该方法中,首先使用n元语法模型获取用户在时间线上的行为特征序列;然后根据序列的TF(Term Frequency)值构成按热度有序的特征序列集合,并将该有序集合作为用户行为模式的表征;最后本文提出一种有序集合的匹配方式,将匿名用户与已知用户的特征序列集合进行匹配,选取匹配相似度最高的用户作为识别结果。本文在三种不同的真实场景下对以上方法进行了实验验证,并探讨了识别任务中的一些常见问题。首先实验证明在本文的三种场景下,基于特征序列的方法识别正确率(Accuracy)总是不低于经典的特征直方图方法,在用户购物和网页浏览识别场景中,识别正确率分别有10%和7%的提升,同时在识别消耗时间上有所减少;其次本文着重关注了现实识别任务中经常面对的匿名用户数据较少的问题,在该问题中基于特征序列的方法识别效果更佳;最后使用基于特征序列的方法可以对具有显著性特征的用户进行了区分,实验证明,该部分用户的识别正确率极高,在用户购物和电视观看数据集中可以达到98%以上。因此,可以对他们的识别结果有较高的信任程度,这在一些现实应用中具有重要意义。
其他文献
大规模MIMO(Multiple-Input Multiple-Output)技术因其潜在的优势而得到了广泛的研究。研究结果表明,准确的信道状态信息(CSI,Channel State Information)是充分发挥其技术优
“十三五”以来,我国制造业正在寻求新的经济效益增长驱动力,以求在“新常态”中保持强有力的可持续发展态势。另外,大数据及数据互联等新兴信息技术的发展,使得根据数据预测
目的:研究传统天然药物姜黄提取物姜黄素是否可以通过调节IL-23/IL-17轴及其相关蛋白STAT3,以及Bcl-2、TNF-α等相关细胞因子,以及通过调节MAPK通路中的JNK信号传导通路,减轻
目的1.采用CBCT测量上中切牙唇腭侧的牙槽骨厚度,研究不同性别、年龄及唇倾度对上中切牙唇腭侧牙槽骨厚度的影响,以期为临床治疗提供指导。2.采用CBCT测量上中切牙骨开窗骨开
在过去的二十年中,异步电路由于与同步电路相比具有无时钟偏差,易于集成,可靠性强等优势,在微处理器,低功耗电路等领域表现出相当的潜力。然而,异步电路的固有并发性也使得它
目的在评价针刺与等待治疗对功能性便秘患者(Functional Constipation,FC)症状及生活质量影响的基础上,采用独立成分分析(Independent Component Correlation Algorithm,ICA)
随着无线通信需求的不断增长,如何更加高效地利用频谱资源是未来无线通信系统中需要解决的重要问题。作为认知无线电物理层的一种传输技术,NC-OFDM通过收集频谱池中空闲的频谱信息,在空闲频谱对应的子载波上对数据进行高效的传输,从而提高了频谱资源的利用率。但是在NC-OFDM系统中如何降低高的峰均比(PAPR)仍是亟待解决的“瓶颈”问题。部分传输序列(PTS)方法是一种传统的降低系统PAPR的方法,本论
基于认知无线电(CR)的非连续正交频分复用(NC-OFDM)调制技术凭借自身的抗多径性能强与高效的频谱利用率等优势成为第五代移动通信中关键技术之一。但是如何解决峰均比(PAPR)过高仍是NC-OFDM技术中存在的“瓶颈”问题,解决峰均比问题对NC-OFDM技术和频谱的高效使用具有重要意义。本学位论文在传统限幅技术(Clipping)基础上提出了改进型限幅技术抑制峰均比的方法。首先,分析比较了 NC
隐写术通过将信息隐藏在人们难以察觉的常见媒介中,实现秘密消息和通信行为的双重隐蔽,为公开信道下的隐蔽通信传输提供了一种有效解决思路。彩色图像自适应隐写依据载图像内
再制造是中国制造业发展的重要方向,设备维护是影响生产制造的重要影响因素,将生产调度和设备维护集成优化可以有效指导调度计划的实施,有利于提高再制造企业的生产效率。本论文以再制造为研究背景,置换流水车间调度问题为研究对象,考虑了再制造中加工时间的不确定性,探讨设备维护时间线性恶化的生产调度与设备维护集成优化问题,旨在合理制定调度和预防性维护计划。本文采用三角模糊数表示加工时间,以最小化最大完工时间为目