社交网络中基于事件增强注意力机制的亲历者发现

来源 :东南大学 | 被引量 : 0次 | 上传用户:kirawu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政府和新闻媒体为确认事件真相、还原现实情况,需要获取亲历者对事件的直接描述和反馈,从而报告真实内容、采取相应措施。随着信息技术的发展及社交网络的普及,亲历者发现由线下转向线上,社交网络中亲历者发现的研究可极大地便利相关部门和新闻媒体接触亲历者并获得可靠的第一手信息。已有研究大多仅着眼单一事件类别,基于人工特征工程进行针对性的特征提取,采用统计机器学习技术开展文本分类工作。此类研究需要较多的人为工作、涉及较强的人工干预,针对性过强、泛化性不足。本文基于深度学习方法和注意力机制,设计可自动对多事件类别数据建模的亲历者发现模型,达到捕捉不同事件类别下用户不同语言描述模式的效果,减轻人为工作、提升亲历者发现性能并增强泛化性。论文具体工作如下:(1)针对语言描述特征自动提取问题,本文提出了基于循环神经网络和关键词提取的基本语义特征提取模型。模型包含两个部分:针对推文侧重于序列建模和深度特征提取能力,基于循环神经网络提取推文基本语义特征序列;针对事件类别侧重于提取弱序列特征即关键词序列,使用基于图的评分模型Text Rank提取事件类别关键词序列。(2)针对适用事件类别单一、泛化性弱的问题,本文设计了基于事件增强注意力机制的推文综合语义提取模型。模型包括两次注意力机制计算:针对事件类别关键词序列使用注意力机制得到表征不同关键词重要程度的权值,加权求和得到事件类别特征向量;随后将其与推文基本语义特征序列拼接形成事件增强嵌入,使用注意力机制得到表征推文内不同词在该事件类别下重要程度的权值,加权求和得到推文综合语义特征向量;最终使用该特征向量进行亲历者分类工作。综合语义特征提取模型和基本语义特征提取模型组合构成端到端的亲历者发现模型。该模型可对不同事件类别数据统一建模,涵盖且不限于已有研究的内容,实现了高效泛化的亲历者发现。(3)本文设计了基于Twitter API的高效爬虫软件获取社交网络数据,结合公开数据集构建了Twitter多事件类别数据集。基于该数据集,本文设计了针对现有研究、常用深度学习方法、本研究模型变体等多种对比实验,并从评价指标结果、注意力机制可视化、预处理粒度等角度综合评估。实验结果显示在单一事件类别和多事件类别数据上,本文模型均体现了更强的建模能力,说明了本研究良好的泛化性、深度学习方法在解决亲历者发现问题上的合理性和可行性、及注意力机制对处理多事件类别数据的有效性。(4)基于上述成果,本文实现了亲历者发现原型系统。系统涵盖了本文所有的工作内容,并针对不同需求和身份的用户设计,通过离线和在线两部分实现了数据集展示和研究成果可视化、输入数据集训练和微调模型、启动爬虫搜索关键词获取数据、加载预训练模型进行亲历者发现等多个功能。
其他文献
气象监测在农业、工业、军事、交通和能源等领域中应用十分广泛,监测要素包含气温、气压、湿度及风速风向等,其中,风速风向占据着重要地位。近年来,随着MEMS工艺和IC工艺的发展,体积小且功耗低的MEMS热式风传感器被研发出来,具有很高的市场应用价值。本实验室具有多年MEMS热式风传感器研究经验,对传感器芯片衬底材料选择、芯片结构设计以及芯片驱动电路的研究已有完整的解决方案,但最终设计完成的传感器系统的
由于传统的低频段通信技术已经无法满足日益增长的移动数据,毫米波频段具有大量可用带宽资源,成为解决这一难题的突破口。在无线局域网和无线个人局域网领域内已经出现了基于毫米波通信的国际标准,但在移动蜂窝通信系统中,大规模应用毫米波通信尚面临着许多挑战。首先,由于毫米波的波长较短,在空间传播的路径损耗严重,从而使通讯距离变短。其次,毫米波通信的带宽大、频段高,导致基带信号处理更为复杂、射频链路的硬件成本更
随着我国经济社会的不断发展和用电需求的不断提升,电网面临的压力越来越大。为保障用电需求,“十三五”期间,淮安电网大力推动技术发展,发布了淮安市“十三五”电力发展规划,有效促进了淮安电网改造以及新电网建设。在电网发展过程中,为达成国网公司建设“三型两网”的战略目标、解决现阶段电站规划不足与用电量不平衡的矛盾,淮安公司既要根据建设规划制定好中长期电网发展计划,也要切实加强对短期负荷的预测研究。鉴于此,
在国内外各行业存在着各式各样的证件,在过去,证件的内容以手写为主,工作量大并且存在字迹不易辨认的隐患。随着打印机技术的发展,这些证件的内容可以通过打印机打印出来,极大的提高了正确性和效率。由于这些证件具有封面较硬,厚度较厚的特点,激光打印机或者喷墨打印机很难完成打印任务,因此证件上的内容是靠证件打印机打印出来的。随着互联网技术和信息化的发展,自助服务终端的使用愈发广泛,证件打印机也被广泛应用于自助
无人机具有成本低、功能多样等优势而在军用、民用领域得到广泛运用,而发射系统是无人机系统正常运转最重要的前提保障。本文主要对无人机发射系统进行研究和优化,致力于提高无人机在发射过程中的稳定性与可靠性。以某火箭助推发射无人机为例,基于理论建模和仿真分析,研究发射阶段的运动学与动力学参数变化情况,以及对各个部件的性能影响;通过数据分析,优化机械结构和工作参数,为发射阶段的顺利完成提供基本保障。本文完成的
近年来,随着我国教育改革的持续深化,小学教育模式正在发生巨大转变,传统应试教育逐渐被以学生为主导的新型教育模式取代。如何回应这一转变,成为小学教学建筑空间设计的重要考量。同时,学校建设也面临着教学规模扩大、用地集约化及现行规范限制等多重挑战。通过对新型教育模式及其空间诉求的调查研究,可以发现,小学教学建筑中对教室以外的非正式学习空间的需求激增,学习模式的转变成为小学教学建筑设计破局的持力点。如何应
城市公共空间一直以来都是我国规划学界关注的焦点,在其周边布局并合理规划居住用地具有重要性与合理性,然而当前城市公共空间周边的居住用地规划仍存在一定问题,利用我国当前“城市双修”背景契机,对此类居住用地规划设计展开研究。首先,梳理国内外城市公共空间发展历程,归纳城市公共空间发展至现阶段所具备的多元价值。其次,结合目前居住用地规划设计发展趋势,以及城市公共空间的多元价值对周边居住用地规划设计的要求,共
在各类型城市遗产中,传统居住型历史地段是与日常生活密切相关的历史地段。因长期处于动态变化中而表现出较强的复杂性和矛盾性:社会各界对保护价值的认知和发展走向不明确、不一致;建筑产权和社会结构复杂;保护等级参差不齐、低保护等级的建筑偏多。因此其呈现出高价值与低保护水平之间的矛盾、现代化生活需求与低居住水平之间的矛盾,保护发展陷入“困局”。为探寻“致困之源”,本文借助社会资本理论与研究框架,在学习国内外
可见光通信因为无需频谱规划、保密性好、无电磁污染等优点,近来得到了学术界的广泛关注。本文围绕可见光通信室内覆盖系统的无线资源分配算法,研究了移动用户的接入LED选择方案、时隙与功率分配方案、NOMA VLC下行链路功率分配方案,具体内容如下:一、针对LED的数目多于用户数目的VLC室内覆盖场景,在一个用户可以选择多个LED作为接入点的条件下,基于SINR门限尽可能大的准则构建了用户接入点选择问题对
随着我国城市化加剧及建筑业的日益发展,材料发生了极大改变。玻璃作为一种绿色环保材料,在建筑领域得到广泛使用,成为建筑外界面的常用材料。而彩釉玻璃由于其半透明特质,色彩丰富、肌理图像多样,材料性能优良,使用范围广泛,能创造出时尚、现代的外观,受到人们的青睐,在建筑外界面的应用上大放异彩,也呈现出更加多样、复合的发展趋势。因此,彩釉玻璃外界面的应用研究对启发建筑师的创作思维、促进彩釉玻璃外界面的节能和