基于深度学习的社交网络跨媒体大数据搜索研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:xgf217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以微博为代表的社交网络蕴藏着大量有价值的国民安全事件舆情信息,这些信息存在于社交网络的文本、图像以及网络用户等数据中。海量跨媒体信息的出现对传统的搜索方法提出了挑战。近年来兴起的深度神经网络方法为跨媒体语义信息的提取与理解提供了新的解决方案。为了高效查找社交网络国民安全跨媒体数据包含的有价值信息,本文实现了海量数据的实时采集和搜索系统,从图像特征、文本特征、用户特征三个方面采用深度学习方法对社交网络国民安全跨媒体数据进行分析,实现精准和高效的搜索。本文完成的主要工作如下:(1)提出了社交网络跨媒体信息的实时采集与基于深度学习的特征提取算法,实现了社交网络跨媒体信息的语义特征提取。对社交网络跨媒体信息进行实时采集,并采用深度学习方法提取社交网络图像和文本信息中的语义信息,进行社交网络跨媒体信息处理。(2)提出了社交网络国民安全事件信息过滤算法,实现了对社交网络图像和文本无关信息的有效过滤。从微博的用户特征及内容特征的显式特征和隐含特征入手,构建特征向量,通过对文本和图像信息的综合分析,结合深度学习方法,实现了有效识别过滤无关信息。通过微博国民安全事件数据集上的文本分类实验,可以看出所提算法在中毒事件数据集和爆炸事件数据集上的准确率、召回率和F1值均有提局。(3)提出了社交网络跨媒体语义扩充搜索算法,实现了社交网络跨媒体信息的精准搜索。利用词嵌入来建模单词相似性表示获取的语义。使用神经语言模型学习微博文本内部的词语关联关系,挖掘微博的潜在语义信息。充分利用图像信息及跨媒体信息的共现关系,训练图像到文本的语义映射。通过平滑逆频率加权的方法,提取微博内容向量。在微博国民安全事件数据集上的跨媒体语义扩充实验及搜索实验验证了所提算法在多个数据集上的MAP、NDCG指标均优于对比算法。(4)结合以上三个方面的研究内容,设计并实现了基于深度学习的跨媒体大数据搜索系统。系统共分为三个功能模块:社交网络跨媒体信息实时采集模块、国民安全事件跨媒体特征提取与搜索模块、社交网络内容及用户特征分析模块。
其他文献
目的评价笑气/氧气吸入镇静技术辅助牙科畏惧症患儿口腔治疗的疗效。方法选择2009年10月至2011年6月来济南市口腔医院就诊,有紧张恐惧情绪,无法完成常规条件下口腔治疗的患儿
目的研究急性脑梗死与C反应蛋白之间的相关性。方法选取62例急性脑梗死患者为观察组,同期将56例正常体检者作为对照组。观察急性脑梗死C反应蛋白表达水平与患者病情程度的相
随着人们生活水平的进一步提高,其对旅游产品的需求也开始由原来的观光型产品转向体验型、文化性更强的文化旅游产品,这种需求的增加,促使旅游产品中一个新的品种——文化旅
曾经以知青小说闻名的作家梁晓声在现代出版社出版了他的最新力作《狐鬼启示录》,开启了与蒲松龄《聊斋》文本的一次全面而深刻的对话,也从一个小说家的视角重新发现了一般读者
报纸
<正>5月,《中国物业管理》杂志社将在杭州召开2018中国物业管理"资本·上市·并购"高峰论坛,并在论坛上发布业内首份《2018中国物业管理"资本·上市·并购"调研报告》,在该报
国外关于慈善捐赠动机的研究已成为了慈善学与经济学、心理学、伦理学等其他学科展开对话的纽带,而国内的研究却非常缺乏。文章从人性、情感、制度、文化四个视角梳理了国外
背景:低氧复合运动可上调解偶联蛋白3的表达,提高骨骼肌线粒体对低氧的抵抗力,但其生物学效应及作用机制尚不清楚。目的:观察单纯低氧及低氧复合运动对骨骼肌线粒体力能学及解
搜索引擎是用户从互联网海量数据中获取所需资源信息的主要途径之一。随着互联网数据规模急速膨胀,用户对于高效便捷获取资源信息的要求越来越高,搜索引擎需要不断地进行系统
莲子芯(embryo Loti,Nelumbo nucifera Gaertn)为睡莲科莲属植物莲种子的胚芽,是我国重要的中药之一,具有清心火、退热、降血压、强心等功用。本文对产于福建北部山区的建宁
在现代公司制度中,资本多数决原则不仅是一个约定俗成的模式,而且已经为各国公司法以立法的形式加以确认。但该原则同时也造成了天生处于弱势地位的中小股东的权益被占公司资