基于社交网络用户内容和关联关系的地理位置定位研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liaodoctor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交网络平台的迅速发展,产生了大量的非结构化数据,例如:用户发布的文本内容、参与讨论的话题标签以及用户之间的相互关注和互动等。虽然定位设备的普及使得位置信息很容易获取,但此类敏感数据仅限于特定的社交平台,因此,如何通过用户产生的内容和行为特征来推断用户住址的地理位置成为了人们关注的重点。用户地理位置的确定已成为许多下游应用提供服务的关键,比如:基于位置的定向广告、当地事件/地点的推荐、遵循区域政策的受限内容分发等等。现有一些方法可以解决用户地理位置定位问题,其中绝大部分都是通过某种分割算法将用户划分至不同的区域,区域编号则为用户标签,这样,用户地理位置定位问题便转换为一个分类问题。尽管先前的工作取得了可喜的性能,但依然存在如下四个问题:第一,先前的方法将用户文本内容嵌入为固定表示,无法捕获用户文本内容的风格;第二,对于文本和网络中包含的嘈杂信息,做不到有效的处理和过滤;第三,在社交网络特征学习方面,现有的模型没有充分利用用户的拓扑结构,缺乏对孤立和无标签节点特征的挖掘,并且无法识别并利用人群的属性特征;第四,模型缺乏可解释性,尤其是基于神经网络的模型,无法对影响模型定位性能的关键因素进行分析。本文提出了基于多方面注意力图神经网络模型(MAGNN)和基于分层图神经网络模型(HGNN)来解决上述问题。MAGNN将文本内容和交互网络统一起来以进行端到端(end-to-end)的用户地理位置预测,根据具体任务动态地学习文本内容和网络特征的嵌入表示。注意力机制的应用使模型具有从多个数据源捕获多方面信息的能力,有效捕获文本内容风格,并可以使模型区分内容和节点的重要性程度,以此来解决内容和网络结构中干扰信息过多的问题。HGNN是一种可融合多方面数据的具有位置感知的定位方法,它结合了用户的地理位置信息和区域中聚集人群的属性,可以在保留节点和区域的相对位置的同时捕获拓扑关系。HGNN通过使用分层图学习对区域的结构和特征进行编码,有效缓解了嘈杂和不稳定信号的融合问题,充分利用并挖掘了用户拓扑结构特征。此外,HGNN中设计了一种关联机制,用于桥接各个用户和区域之间的连接,达到了对孤立节点信息聚合的目的,而且还捕获了未标记节点和标记子图之间的关系。最后引入了影响力函数,通过在预测用户位置时识别数据样本的重要性来解释模型的行为。该方法提供了对于模型行为和预测结果的有意义的解释,克服了以前视作“黑盒”的定位模型缺乏可解释性的弊端。本文在三个真实的Twitter数据集上对模型进行了综合评估,实验结果验证了与现有的基准方法相比,MAGNN和HGNN模型性能优越,并进行了可解释性分析,这将有助于读者和模型设计者更好地理解用户地理位置预测问题。
其他文献
当前,人们对于对流初生短临预报的需求日益增长,随着深度学习技术的不断深入发展也使得利用深度学习方法进行对流初生短临预报成为了可能。虽然我国近几年在灾害性天气中的预报取得了长足的进展,但传统的数值天气预报方法在对流初生短临预报上仍面临较大的挑战。在本论文中,针对对流初生短临预报问题,我们尝试使用深度学习的方法提升预报模型的时效性和准确性。本论文依托中国电子科技集团公司第十四研究所所控横向项目开展工作
随着经济的增长,中国的汽车总数逐年增加,这大大增加了交通事故和交通堵塞的可能性。无人驾驶作为一种新的研究领域,期望能优化由汽车带来的一系列交通问题。无人驾驶的研究是复杂且长期的,它包含了多个方面的研究,信息采集就是其中的一个。信息采集包含了对道路中各种关键信息的检测,包括车道线、红绿灯、交通标志等。本论文以无人驾驶领域中的交通标志检测为研究课题,重点研究了基于YOLO v3改进算法的交通标志检测、
人体语义分割是一种精细的语义分割任务,其目的是在像素级尺度上识别人类图像的组成部分(如身体部位和衣服)。理解人类图像的内容,对电子商务、人机交互、图像编辑和虚拟现实等一些潜在的应用很有应用价值。目前,随着基于语义分割的全卷积神经网络的发展,人体语义分割取得了重大进展。人体语义分割与一般的图像分割相比,其难点主要有以下几个方面:首先,人体语义分割在实例场景下的数据比较复杂,涉及到多种场景,例如多人或
随着通信技术的发展,辐射源个体识别在很多领域具有广泛应用,例如电子信息对抗、频谱管理、生命科学和故障诊断等领域。然而现在的辐射源个体往往具备多种调制方式、中心频率、传输速率等特点,这将给辐射源识别带来极大挑战。在辐射源个体之间无明显差异的场景下,基于传统机器学习的辐射源个体识别算法准确率往往不够理想,而且其复杂度比较高、识别时间长,导致其很难满足现代的实际工程需要。为了解决以上问题,本文主要采用基
为让机器人在工作环境中自主地移动,定位和绘制环境地图这两项基础功能便是不可或缺的。经多年发展,基于视觉的同时定位和制图(Visual Simultaneous Localization and Mapping,VSLAM)已经有比较成熟的框架,且能为机器人提供基本的环境感知能力。SLAM(Simultaneous Localization and Mapping,SLAM)系统框架的前端是整个框架
随着新能源汽车扶持政策的持续发布,如今有越来越多的高校和企业活跃在新能源汽车市场。当前我国新能源汽车正在迈向中高级阶段,有着重解决汽车本身充电、续航、安全性等基础技术问题,转向关注与其他高技术行业的协同,充分挖掘新能源汽车的潜能。本课题以故障预测和健康管理(PHM)技术为核心思想,设计了一套结合机器学习和UDS(Unified Diagnostic Services)诊断的车载同步电机的故障诊断系
随着互联网的飞速发展,网民数量爆炸式增长,web应用系统面临巨大的负载压力,负载的波动性也更加显著,传统固定集群规模的web系统难以保证良好的服务质量。结合云服务的动态资源申请,弹性web系统利用能够根据当前负载水平自动增减硬件资源,动态调整系统集群规模,始终保持良好的服务质量,因此,弹性伸缩web系统成为互联网技术领域的重要研究方向。随着技术的迭代,微服务架构和容器技术成为当前web系统主流的软
绳驱式蛇形机械臂是一种仿生物蛇的连续型机械臂,相比于传统工业机械臂,蛇形机械臂能够灵活的在狭小空间作业,同时绳驱式下驱动和作业臂分离的特点有利于机械臂的抗辐射和水下密封设计。本文针对核电站水池的使用环境设计了能够同时满足抗辐射需求和水下作业环境的蛇形机械臂机器人,这时国内第一次尝试把绳驱式蛇形机械臂应用于核环境水下作业。相比于已有的研究,本文的机械臂更注重在实际环境中的功能、可靠性和使用体验,同时
随着涉及的数据越来越复杂,在机器学习、数据挖掘等领域,对于一些高维数据,例如图像、文本和音视频等数据的处理需求明显增加了。同时,我们也面临着因特征太多、噪声或冗余特征的存在而造成的一些问题,这不仅会导致后续的模型预测结果不准确,还会耗费大量计算时间。由此可见,采用某些手段找出最优的特征子集是非常重要的,使用最优特征子集进行后续训练不仅可以减少过拟合问题发生的机率,增强算法模型的泛化能力,减少模型训
随着工业与经济的发展,城市交通难以应对车辆数量快速增长带来的冲击。在此背景下,传统车辆检测算法越来越难以适应复杂的交通情况。车辆检测技术可分为侵入式检测与非侵入式检测。侵入式检测如感应环路,检测精度高但是会对路面造成破坏。非侵入式检测如高速摄像头,成本高昂且不易架设。为解决传统车辆检测中高成本、架设繁琐等问题,本文研究并实现了基于无线能量传输技术(Wireless Power Transfer,W