基于深度学习的社交媒体地理位置探测研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:smilelemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体的地理位置大大丰富了地理知识发现的手段,但社交媒体的地理位置标记是稀疏的,仅约1%-10%的社交媒体数据附带地理位置。除了用户主动标记的位置,社交用户的文本、社交网络也隐藏着许多地理位置指示信息。为了从文本、社交网络挖掘潜在的地理位置指示信息,推断社交媒体数据地理位置,本文基于深度学习方法对文本级、用户级两个层次的社交媒体数据建立地理位置探测模型。主要研究内容包括:(1)文本级的社交媒体地理位置探测针对社交短文本,提取位置指示信息并推断其地理位置。通过地理命名实体识别、BTM主题模型对社交文本筛选,基于抽取地名获取地理编码和Fasttext、Text CNN三种方法对社交短文本的地理位置探测。结果显示,Fasttext方法最优,包含地理实体的文本和旅游类主题的文本更容易发现地理位置。(2)按照输入的不同,用户级的社交媒体地理位置探测可以分为基于文本的用户地理位置探测和基于文本结合社交网络的用户地理位置探测。基于文本的用户地理位置探测,将每个用户发布的多条文本串联为一个长文档,在文本串联之前对多条文本基于地理命名实体识别、BTM主题模型筛选过滤。将用户的地理位置探测归为一个长文本的分类问题,在三个社交媒体数据集利用Fasttext和Text CNN实验,结果显示,Fasttext总体最优,仅在一个数据集的特定文本输入时,Text CNN表现更好。针对基于文本结合社交网络的用户级地理位置探测,提出了图卷积神经网络、多视图融合神经网络地理位置探测模型。实验显示,图卷积神经网络模型优于多视图融合神经网络,并比最新的研究成果更具竞争力。结合现实监督样本稀疏的场景,在10%以下的小样本监督学习实验,结果显示,图卷积神经网络在低于10%监督的小样本学习场景能保持强大学习能力,并且社交网络的质量对于其小样本学习能力起到了关键的作用。(3)选取特定的雾霾事件,爬取山东省2018年雾霾事件相关微博,共计50398个发布的90672条微博,其中12.40%用户附带签到位置。从文本中提取社交网络,基于图卷积神经网络模型对用户地理位置探测,用户地理位置探测地级市尺度的精度超过90%,将地理位置探测用户的空间分布与2018年山东省国控监测站PM2.5浓度均值空间相关分析,结果显示,在地级市尺度地理位置探测结果与PM2.5浓度均值显著相关。利用深度学习方法对社交媒体数据地理位置探测,有助于提高社交媒体地理位置探测的精度,弥补社交媒体数据位置稀疏的问题,对基于位置的相关研究具有重要的意义。
其他文献
IATF16949质量管理体系标准在汽车行业有很大的影响力,符合IATF16949质量管理体系标准的规定已经成为对汽车和汽车零部件制造商的基本质量要求。TE企业是一家轮胎生产企业,基于客户的要求和内部发展的需求建立了IATF16949质量管理体系。本论文通过对TE企业研究发现TE企业IATF16949质量管理体系运行过程中存在的主要问题。然后使用调查问卷法、现场访谈法、鱼骨图法等多种方法和工具剖析
学位
海岸湿地是地球表层最富有生产力的生态系统之一,对海岸带湿地进行土地覆被监测具有重要意义。海岸湿地地区常年多云多雾,传统的光学遥感往往不能获取高质量的影像,合成孔径雷达(Synthetic Aperture Radar,SAR)能够不受天气条件的限制,是海岸湿地土地覆被监测的理想手段。本文以黄河三角洲为研究区域,基于深度学习的方法开展高分极化SAR海岸湿地的分类研究。遥感影像数据为2016年9月14
学位
十九大报告指出,金融是国家重要的核心竞争力,金融强则经济强。目前我国正面临着经济转型升级的攻关期,我们必须坚持以供给侧结构性改革为主线,加快经济发展的变革速度。习近平总书记提出金融工作的主要任务是服务实体经济、防控金融风险、深化金融改革,这三项任务也是三位一体的有机结合。习近平总书记的重要讲话,指明了金融工作的大政方针、主要任务和改革方向。随着国家黄蓝两大战略的实施,东营市金融业发展迅猛,各类金融
学位
信息技术和互联网的迅速发展改变了旅游领域,旅游住宿数据呈指数级增长,推荐系统成为克服旅游住宿领域“信息过载”问题的实用工具。然而,由于旅游领域的性质,旅游住宿推荐系统也面临着挑战:一是在海量旅游住宿数据中,用户和酒店的交互信息稀缺,存在严重的数据稀疏性和冷启动问题,二是当用户身份标识不可见时,传统推荐算法不再适用,往往需要基于用户行为序列数据进行会话推荐。深度学习技术的出现为推荐系统的研究带来了新
学位
发热呼吸道症候群(Febrile respiratory syndrome,FRS)是由多种病原体构成的具有一组相似临床病征的呼吸系统传染病临床症状。近年来,发热呼吸道症候群的病原体不断变化,发病率逐渐升高,严重的威胁着人类健康,对社会经济造成严重危害,因此构建发热呼吸道症候群时空病原谱对于我国发热呼吸道症候群流行病学特征研究及其预防、控制都有着重要作用与意义。但是,限于发热呼吸道症候群病毒的检测
学位
GNSS反演大气可降水量(PWV)具有精度高、时空分辨率高和不受天气影响等优点。在水汽反演的过程中,大气加权平均温度(Tm)是一个非常重要的参数。对于固定的地基GNSS站点而言,现有Tm全球模型和区域模型的适用性存在一定的局限性和不确定性。本文基于单站建模方法,分别利用欧洲中期天气预报中心(ECWMF)数据和无线电探空数据,构建了单站大气加权平均温度模型,并对其精度进行了验证和分析。主要研究内容和
学位
城市交通流量短时预测是智慧交通发展中的重要一步。本文基于北京市出租车GPS轨迹数据,对城市交通流进行了时空特性分析,利用深度神经网络建立了两种短时交通流时空预测模型,主要研究内容包括:(1)城市交通流时空特性分析。时间层面,按分钟和日粒度进行交通流量统计和Pearson相关系数分析。发现城市交通流在时间上具有临近性、周期性和趋势变动性,且工作日和非工作日具有显著的差异。每天的交通流量变化从细节上看
学位
随着北斗、伽利略等全球导航卫星系统的发射,基于全球卫星导航系统进行高精度导航定位已广泛应用于各领域。在海洋应用中,由于海上通信链路的问题,利用GNSS进行高精度定位和导航仍是一个挑战。DGNSS和RTK都需要在陆地上的基站和海上的移动站之间进行数据通信,而远海数据通信一般都由海洋通信卫星服务商提供,通信成本高,普通的用户无法承担。低成本的北斗短报文服务为陆地基站与海上流动站之间的数据通信提供了另外
学位
IGS RTS实时数据产品的公布,使得GNSS RT-PPP技术进入了新的发展和应用阶段。然而,RTS产品是通过网络传输的形式播发给用户,在此过程中,RTS数据不可避免会产生中断与不连续的问题,对用户RT-PPP处理的连续性与定位精度产生严重影响。本文针对上述问题开展系统研究,主要内容和结论总结如下:(1)卫星钟差预报算法。对GNSS卫星钟差预报算法和参数估计方法进行总结,对各模型应用于卫星钟差预
学位
海岸带是一种特殊的生态系统,具有高生产力、高经济价值的特点。随着经济和人口的不断增长,海岸带正面临着巨大压力,严重影响了可持续发展的战略方针。因此,把握海岸带的动态变化规律,对海岸带的可持续利用和发展具有十分重要的意义。传统遥感分类使用单时相遥感数据,分类效率高、可操作性强。但是,海岸带地物类型丰富、分布错综复杂,仅靠单时相遥感影像难以实现高精度分类。需要利用多时相的遥感信息,通过分析地物在“繁盛
学位