跨多社交平台的用户连接

来源 :苏州大学 | 被引量 : 0次 | 上传用户:jjdoris1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的流行,人们通常会在多个社交平台上注册账号以满足不同的社会需求。跨多社交平台用户连接旨在将多个社交平台上属于同一自然人的不同账号连接起来以聚合分散的用户信息,这对跨域商业推荐、网络安全、身份验证等诸多应用都具有重要的意义。然而大多数现有研究关注的是两个社交平台之间的用户连接,且该类方法通过“链式规则”应用于三个及以上平台时通常具有较低的召回率和精确率。因此,本文主要研究跨三个及以上社交平台的用户连接问题,内容如下:1)为了有效减少“链式规则”下出现的大量错误连接链,我们从用户档案属性的层面出发,提出了基于图聚类的用户连接方法MCULK。首先,采用MinHashLSH技术定位相似的用户档案;其次,使用分类器过滤掉不匹配的用户档案并构建相似图;最后,在相似图上执行聚类以生成用户档案簇,并依据“平台一致性”策略和倒排索引优化聚类的过程和速度。2)为了应对真实生活中存在的重复用户档案和大规模用户档案这两个场景,我们对上述所提方法进行了优化,提出了高效的用户连接方法EEUPL。针对重复用户档案场景,在聚类的过程中采用“平均边权”策略以提高用户连接的召回率和精确率。针对大规模用户档案场景,使用Apache Spark框架优化所提方法以加快用户连接的速度。3)为了降低跨三个及以上社交平台用户连接模型的复杂度,我们从多维用户信息的层面出发,提出基于对抗学习的用户连接方法MAUL。首先,对用户进行向量化表示,包括用户名嵌入、社交关系构成的同质图嵌入和多维信息构成的异质图嵌入;然后,使用对抗学习框架来学习不同社交平台之间映射函数,使得模型复杂度从O(n2)降至O(n),并且在映射函数中引入了外部注意力机制以提高用户连接的性能。结合真实的社交平台数据集,本文开展了实验验证。实验结果表明,本文所提方法在真实数据集上性能较基准算法有较大提升,能够有效的解决跨多社交平台用户连接问题。
其他文献
语义角色标注(Semantic Role Labeling,SRL),又称为浅层语义分析,其目标是识别句子的谓语论元结构,包括句子中的所有谓词,以及谓词相关的论元。首先,为了解决多领域SRL数据集匮乏的问题,本文人工标注了一个较大规模的多来源多领域汉语SRL数据集,进而开展了跨领域SRL方法探索。考虑到语义和句法的紧密联系,本文的另一个重点是如何在跨领域SRL模型中有效地使用句法信息。本文尝试了两
学位
近年来,我国的交通系统飞速发展,各类交通工具不仅丰富了人们的出行选择,也拉近了人们的地理空间距离。与此同时,城市的交通拥堵现象日益严重,不仅增加了人们的通勤成本,还容易导致特大安全事件的发生。为了缓解交通拥堵带来的各种影响,城市路况的精准预测显得尤为重要。其中,交通流预测旨在分析交通流的历史规律,从而推演未来的交通演化情况。本文将重点研究交通流预测技术的发展,分析现有研究方法的优势与不足,并提出针
学位
随着金融交易市场的迅速发展,互联网金融和移动金融逐渐成为投资交易的新型金融业务模式,这给投资者带来了极大便利的同时,也使得金融市场的交易数据呈爆炸式增长。在金融资产的交易过程中,订单流的限价指令信息形成了限价指令簿。投资者能够利用限价指令簿来预测金融资产的价格趋势,并根据预测的结果进行交易决策。目前,限价指令簿趋势预测的主流方法是深度学习方法,其中大部分方法只采用限价指令簿的事实信息,少量方法会兼
学位
场景图生成任务是对图像理解的一种结构化表示形式,这种表示形式不仅可以为基本的目标识别任务提供上下文线索,还可以为更广泛的高级视觉任务提供价值,应用前景十分广泛。针对模型中的单峰偏置问题和数据集中的数据偏置问题,论文首先研究模型单峰偏置缓解,通过引入协同策略来缓解单峰偏置,并基于提出的场景图生成模型展开数据偏置缓解的研究,重点研究了奖惩策略下和类平衡策略下的场景图生成方法。主要工作内容如下:(1)针
学位
捆绑销售旨在向用户推荐捆绑的商品包,具有着重要的营销价值。互联网技术的浪潮推动了对捆绑销售场景的研究,根据不同的捆绑销售场景,将推荐任务划分为商品包推荐、合购者推荐和多任务推荐,并在图神经网络的框架下,推进对这三个推荐任务的研究。主要内容有:(1)针对向用户推荐捆绑商品包的问题,本文提出了模型IHBR。模型根据用户的对捆绑商品的购买意图探究了商品之间的共购、共现关系,使用自注意机制学习商品依赖性,
学位
随着智能移动设备的发展和普及,各种基于位置的服务提供商不断涌现,为用户提供丰富多彩的服务,比如查找最近的餐馆、规划出行路线等。路网最短路径及其距离查询作为各种服务最核心、最高频的操作,它的计算效率极大地影响着服务质量和用户体验。现有的最短路径及其距离查询算法,没有充分挖掘、利用查询和路径的时空信息,算法计算效率不能满足实际应用需求。本文在分析现有工作不足的基础上,深入研究路网最短路径及其距离查询算
学位
抽象语义表示(Abstract Meaning Representation,AMR)是一种新型的句子级语义表示方法,它将句子的语义表示为一个单根有向无环图。AMR文本生成(AMR-to-text Generation)任务的目标是获取与给定AMR图具有同样语义的句子。随着神经网络在自然语言生成领域中的兴起,序列到序列模型在AMR文本生成任务中也取得了很好的性能。本文围绕基于序列到序列Transf
学位
缺陷检测是工业生产过程中把控出厂产品质量的关键步骤,实现自动化缺陷检测对促进“智”造业发展有着重要意义。近年来,深度学习算法被广泛应用于缺陷检测领域并取得了不错的检测效果,但现有的相关研究大多仅针对某特定的检测场景,且对运行检测程序的设备性能要求较高,不具备良好的可迁移性和推广价值。文中通过总结缺陷检测应用场景的共性,使用基于神经网络的机器视觉方法设计并实现了一个可迁移、高适配的缺陷检测应用框架,
学位
自动文本摘要技术一直是自然语言处理中的热点与难点。近年来,针对新闻文本的摘要生成研究较多,且已日趋成熟。相比于具有较固定结构的新闻文本,还有一些长文本具有复杂的文本结构,如专利、剧本等。由于这些文本的摘要研究不多,使用传统文本摘要方法生成的摘要存在着内容不准确、覆盖不全面等问题。以往的大量研究主要集中在对语义信息等序列化信息的使用上,而相关研究表明文本结构信息对于摘要的生成同样具有较大的作用。本文
学位
近年来,深度学习在各个领域获得突破性进展,而通过深度学习对机器翻译任务建模的神经机器翻译方法成为诸多学者研究的对象,并且在性能上逐渐超越统计机器翻译,成为机器翻译研究和实际应用的主流范式。但是,神经机器翻译的性能极大程度地依赖双语平行数据的规模和质量,这导致神经机器翻译在诸多低资源语言的翻译任务中无法获得良好的性能。在实际的训练过程中,最明显的问题就是因为训练数据不足导致的过拟合和泛化能力不足,并
学位