基于序列短文本的事件分类和话题追踪

来源 :西华大学 | 被引量 : 0次 | 上传用户:charset
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的高速发展带动了社交网络的兴起,微信、Twitter、新浪微博等社交网络社区中每天都传播着现实世界中发生的真实事件。由于用户的随意性以及一些社交平台文本字数限制,使得社交平台中的文本数据大多属于短文本,而这些短文本中的词语在时序排列上有一定的依赖关系,词语之间相互影响,不独立存在。如何充分利用这些海量的序列短文本数据,对热点事件类型属性和事件话题信息进行深入的分析,成为了一个非常有意义的课题。一些传统的机器学习模型在处理序列短文本数据时捉襟见肘,首先这些模型不能克服序列短文本数据的稀疏性问题,其次,这些模型不具备处理文本序列关系的能力。基于此,本文对序列短文本中的事件分类和事件话题追踪进行了深入的研究和分析,具体工作主要有:1.本文设计了一个基于池化注意力机制的序列短文本分类模型PAN(Pooling Attention Network)来对社交文本数据进行事件分类,模型采用循环神经网络(Recurrent Neural Networks,RNN)来处理变长序列文本,克服了短文本数据稀疏性的问题,在循环神经网络的基础上加入了门控循环单元(Gated Recurrent Unit,GRU)来避免训练过程中梯度消失带来的训练停滞问题,在GRU的输出端加入了一个池化注意力机制,该机制将卷积神经网络(Convolutional Neural Network,CNN)中的池化层(Pooling Layer)和在机器翻译领域中效果很好的注意力机制(Attention Mechanism)相结合,通过选择性的关注于文本序列中的某一部分特征,解决模型训练过程中序列长度有限带来的特征编码不充分的问题。2.本文针对热点事件序列短文本中的话题提取和追踪,提出了一个TTD(Topic Trend Detection)模型。该模型通过采用聚合机制和限制主题分布来解决序列短文本数据稀疏性的问题。另外,本文在TTD模型中加入了一个基于词语重要程度的权重模式,选取词语共现次数大于设定阈值的词语作为当前文档的话题词集,相比单一的词语作为文档主题,话题词集涵盖的信息更广泛,表达的语义更明确。之后将单位时间下话题词集中的词语输入事先训练好的词向量中,得到话题相关词。最后,整合事件不同时间节点的话题词集和话题相关词,得到事件话题随时间的演化过程。在公开数据集和社交平台真实数据集中,通过丰富全面的对比实验,验证了PAN模型和TTD模型的有效性和应用性,并深入分析了在当前现有资源的前提下如何优化神经网络模型的实际效果。
其他文献
本文研究了在自然场景下,卷积神经网络模型在人脸确认方向的应用。传统的人脸确认方法需要人工地进行复杂且耗时的特征提取,而基于卷积神经网络的现代方法只需构建一个有效的
目标检测作为人工智能与计算机视觉中的一个重要研究问题,在视频监控、自动驾驶、机器人导航等多个应用场景中具有广泛的应用价值。本文以目标检测为研究背景,研究了经典的运
在目前的制图综合生产中多采用协同式地图综合方式,所谓人机协同系统是指将与抽象思维有关的数值计算和逻辑推理问题由计算机来完成,将迄今为止一切成熟的综合处理技术计算机
牡丹为芍药科(Paeoniaceae)芍药属(Paeonia)牡丹组(sect.Moutan)植物的统称。除了以“花中之王”供观赏外,其根皮可以入药,有凉血散瘀的功效,同时,牡丹籽油富含不饱和脂肪酸,是很有发展前途的健康食用油之一。种子繁殖是牡丹生产中最常用的方法。然而,牡丹的种胚发育不完全以及种子的上胚轴休眠特性,严重影响了种苗的繁育与生产管理。鉴于此,本研究以油用牡丹的主要栽培种类凤丹(P.o
在经济全球化的互联网时代,人们在满足了对日常需要用品基本需求的同时,也在开始追求产品的文化和艺术的价值内涵。而我国的博物馆面对大众对物质和精神上的需求开始对自身的文创产品进行创新和升级,开创出了很多优秀的文创作品,例如三星堆博物馆出品的青铜面具饼干、月饼、南京科举博物馆的盐水鸭别针、台北故宫博物院的翠玉白菜伞等等,深受大家的喜爱和追捧。北京故宫近年来也吸引很多国内外独立设计师联名设计,而故宫历史文
学位
随着我国国民经济的快速发展,人们的各种物质精神生活得到极大满足,旅游业开始兴盛,旅游文创产品伴随着旅游业开始进入人们的生活。面对五花八门的旅游文创产品,消费者却经常无从下手,笔者通过对各地的旅游文创产品市场的深入调研,发现目前市场上的旅游文创产品主要有三个方面的问题,首先是同质化严重,很多不同景区都在售卖由义乌批发的同样的旅游文创产品。其次,目前市场上的大多数旅游文化创意产品由于制作粗糙,消费者买
学位
近年来公共自行车系统作为城市公共交通的一种,以其环保,便捷,经济等优点流行于各大城市,也因此成为了研究热点。由于用户体力的限制,公共自行车系统尚且停留于提供短途出行和“解决最后一公里”服务。现有的研究工作大多关注用户的出行优化与资源分配问题,尚且缺乏公共自行车系统的功能优化研究。近年来,杭州市尝试为公共自行车系统的用户提供助力服务,使用可充电电池为公共自行车提供动力,以达到节省人力,扩大用户出行范
森林作为陆地生态系统的主体,森林生态系统是全球最大的碳库,其林分碳含量的估算为研究全球气候变化、碳循环和能量转换提供了重要的数据支撑,而森林结构参数是估测森林碳储量的基础。相较于每木检尺的工作方式,激光雷达技术提高了森林资源调查的工作效率。其中背包式激光雷达(Backpack Laser Scanning,BLS)以其出色的可通过性,逐渐成为林下测量的新选择。背包式激光雷达以激光SLAM(Simu
学位
背景:乳腺癌发病率位于女性癌症第一位,死亡率位于女性癌症第二位,是危害全球女性健康的主要癌症之一。目前,乳腺癌的治疗手段以手术切除为主,可联合放化疗、内分泌治疗、靶向治疗、免疫治疗、姑息治疗、中医药治疗等方法。在乳腺癌的分子分型中,以激素受体阳性者居多,约占7075%,内分泌治疗是激素受体阳性乳腺癌的重要治疗手段。但是患者在长期服用内分泌药过程中会出现一系列不良反应,严重影响患者的生活质量及规范治
在科学可视化中时变体数据的可视化是一个研究的难点,如何让用户交互式的挖掘体数据的信息,更好的理解体数据一直是人们关注的核心要点。另一方面,各个领域中都存在着时变体