基于语义匹配的在线社交网络对象精准搜索与可视化研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jcx88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的流行,用户可以随时在社交媒体上表达自己的观点,并对他人的内容进行评价,从而产生了许多社交话题。一些用户在社交网络中有较大的影响力,发布的信息经常能引起人们的关注和传播,甚至改变话题的舆论进程,即话题中的意见领袖。因此对话题意见领袖进行精准搜索与情感分析,以实现话题发展态势的实时监测和在线社交网络的稳定,具有重要的研究意义。本文完成的主要工作包括以下四个方面:(1)完成了在线社交网络对象的获取与数据预处理。针对社交网络对象数据结构复杂而难以获取的问题,提出了在线社交网络对象获取方法。利用网络爬虫对在线社交网络对象进行信息获取,包括用户数据和用户所发的文本数据,并过滤社交网络数据中广泛存在的噪声信息。进行进一步的字段抽取,并对抽取的数据进行一些基本的预处理操作。将处理好的数据存储到数据库中,完成数据获取与预处理。(2)完成了在线社交网络对象的语义表示与匹配。针对社交网络短文本数据的语义稀疏性问题,提出了基于预训练和孪生网络的微博语义匹配算法(PSNSM)。对于社交网络对象所发的文本内容数据,首先进行文本向量化。通过预训练模型进行进一步的训练和微调,充分挖掘文本上下文之间的关联,更好地把握语义焦点,从而对文本内容进行更好的建模,得到更高层次的微博级语义表示。通过改进的孪生网络语义匹配模型,对微博向量进行语义匹配训练。进一步优化微博语义表示,解决了短文本建模难的问题,实现了微博文本的语义表示与匹配。(3)完成了在线社交网络对象的精准搜索与情感分析,对于在线社交网络对象搜索,主要是搜索出特定话题的意见领袖。针对现有意见领袖搜索算法大多只关注用户属性和用户之间的关系,而忽略了用户所发的微博信息的问题,本文提出了基于双图模型的意见领袖搜索算法(DGRanK)。将社交网络中用户信息和用户所发的微博信息进行结合,用微博之间的相关性来补充用户之间的关系,形成统一的双图模型,实现意见领袖的精准搜索,解决了现有意见领袖搜索算法不能很好地利用所有相关数据的问题。提出了基于预训练和TextCNN的情感分析算法(PTEAM),对意见领袖进行情感分析。通过预训练模型对微博文本进行语义建模,捕捉文本中语义依赖信息,并通过改进的TextCNN进行进一步的情感聚焦,充分利用整个文本的特征信息,有效识别文本情感倾向。通过文本情感得到意见领袖的情感,完成社交网络对象的情感分析。(4)实现了基于语义匹配的在线社交网络对象精准搜索与可视化系统。系统共分为三个模块:数据获取模块实现社交网络对象数据获取以及数据预处理;对象搜索模块实现微博文本语义表示与匹配,基于微博语义表示完成在线社交网络对象精准搜索,通过情感分析算法对社交网络对象进行情感分析;对象可视化模块通过可视化工具将用户社交属性数据进行系统展示,完成社交网络对象可视化。本文实现了在线社交网络对象的获取与数据预处理、在线社交网络对象的语义表示与匹配、在线社交网络对象的精准搜索与情感分析,以及基于语义匹配的在线社交网络对象精准搜索与可视化系统,可以实现意见领袖的精准搜索和情感分析,并监测话题事件的发展态势。
其他文献
随着5G移动通信系统对高速率业务需求的快速增长,现有低频段频谱资源匮乏且无法满足5G高速率业务需求。拥有大量可用带宽资源的毫米波高频段将有望解决5G移动通信系统的频谱资源紧缺的难题。然而,相比于传统6GHz以下低频段,毫米波高频段易遭受严重的自由空间路径损耗和大气吸收等影响。为此,采用波束赋形技术可以将毫米波信号聚焦成窄波束,有利于提高通信链路质量和系统容量。但是,窄波束毫米波通信系统却面临信道估
自20世纪80年代以来,我国民航客运业得到快速发展,并在2005年超越德国成为世界第二大航空市场。自21世纪初期以来,我国民航产业不断放松规制,引入市场竞争,在位航空公司和新进入者不断增加,我国航空客运市场结构竞争性不断增强。截至2019年底,我国高速铁路里程达到3.5万公里,动车组发送旅客22.9亿人次,高速铁路作为运输市场上重要的运输方式,也改善了运输市场结构和市场竞争行为,对民航客运形成了激
写作作为英语的一项重要的语言输出技能。高中阶段的英语教学里,英语写作能力的培养是英语综合能力养成中至关重要的一个环节,一个高中生的英语写作水平的高或低也直接反应出了学生的英语综合应用能力,衡量学生的英语学习水平。但是现在高中的写作现状令人堪忧,词汇掌握匮乏、语法使用不当、中式英语等问题丛生。如何有效提高高中生英语写作成为语言教育研究者面对的一个难题。词块教学是近些年日益受到关注的一种教学方法。词块
经济发展是国家发展的根本,经济的强盛将快速推动科技、国防、医疗、社会等各模块的跨越式发展,是衡量国力的重要指标。一个健康的银行业对规避风险、优化资源配置、信用体系与创造、激活企业以及货币政策的传导与贯彻具有积极的作用。20世纪80年代,改革开放裹挟经济的活跃带动了我国银行的井喷式增长,在经历五个发展阶段后,截至二零一九年我国银行共计三千八百余家。2017年,习近平总书记和李克强总理分别在金融工作会
社交网络中蕴含大量跨媒体数据,在商业和安全领域具有极高价值,跨媒体搜索需求应运而生。然而传统单一的文本和图像分析方法不能完成跨媒体搜索任务。同时,近年来个性化搜索
自我国由计划经济过渡到到市场经济并发展至今,资本市场发展迅速,大股东掏空行为也发展成为上市公司不可忽视的一大痼疾。内部控制作为公司治理的重要组成,可以较好的好的防
随着“大数据”、“5G”、“人工智能”及“云计算”等新兴信息产业的快速发展,作为其基础设施的数据机房的数量不断增加,数据机房高能耗问题日益凸显,节能问题受到极大关注。我国数据机房目前主要的冷却方式为空调送风冷却,这种冷却方式虽然形式简单且成本较低,但能耗较高,其中换热器换热性能不足是导致其能耗较高的重要原因。因此,研究机房空调机组换热器换热性能,优化机房空调换热器的气流组织及换热效果具有重要工程应
目的:心功能恢复被认为是评估心肌缺血再灌注损伤(myocardium ischemia reperfusion injury,MIRI)的指标之一,而Ca2+是细胞内激发兴奋-收缩耦联使心脏产生收缩舒张的重要离子。心肌的钙运作失调导致的钙超载是促使细胞损害的“最后共同通路”。丹参注射液在本实验室前期的研究中被发现具有抗心肌缺血损伤的作用。本论文拟从心肌的钙运作调节切入探索其主要水溶性成分丹参素钠(
扬州自古“尝多巨公临治”,北宋时的扬州虽不复唐时“扬一益二”的辉煌,但仍居东南大藩为淮东首府;而且毗邻长江,运河贯穿其中的独特地理位置使得扬州成为江淮间一大都会。本文以北宋仁宗、英宗、神宗三朝扬州知州为研究主体,研究共分为三个部分。第一部分以李之亮的《两宋扬州知州年表》为考证对象,通过对史料的对比分析来确定实际来扬任知州的官员名录与任期:63年间共历50任扬州知州,平均每任知州在扬任职1年零3个月
城市生活垃圾焚烧处置过程所产生的渗滤液,在其主流处理工艺的纳滤单元产生浓缩液,简称纳滤(Nanofiltration,NF)浓水。通常情况下,NF浓水含有大量的难降解有机物污染物和低浓度的有机微污染物,其有效控制和无害化处理是当前垃圾焚烧无害化发展进程中一个亟需解决的问题。本论文基于“氧化絮凝-芬顿高级氧化”组合技术,以将浓水回流至渗滤液处理系统进行循环处理为目标,分别开展了氧化絮凝和芬顿高级氧化