基于新闻事件抽取的预测模型研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:sfx158158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的迅猛发展,爆炸式增长的海量信息带来了信息过载问题。信息抽取技术能够从繁杂的自然语言中抽取出结构化的信息,对知识库构建、知识问答、信息检索、舆情监控、新闻推荐、量化投资等应用效率的提升起到了非常重要的作用。事件抽取是信息抽取的高级形式和重要内容,因此研究事件抽取方法及其在经济生活中的应用具有重要的理论意义和实际意义。本文以基于事件抽取的预测模型为主要研究内容,提出了基于新闻事件抽取的预测框架。除了提出新的事件抽取方法外,还按照预测目标的属性,分别从离散型变量预测任务和连续型变量预测任务研究了有代表性的基于新闻事件抽取的预测模型。本文的主要研究内容和创新包括:一、提出了基于新闻事件抽取的预测框架(EEPREDICT)。提出的预测框架主要包含事件抽取模块和预测模块。针对事件抽取模型和预测方法众多的问题,本文梳理了事件抽取模型选择的原则和预测方法选择的原则,为设计具体的基于新闻事件抽取的预测模型提供了方向。二、提出了基于句法和语义特征融合的中文事件抽取方法(CHEE)。目前基于深度学习的事件抽取模型大多是基于预训练模型的,而多数预训练模型只考虑了序列特征,忽略了句法特征。另一方面由于中文语言的特殊性,中文事件抽取不及英文等语言的事件抽取效果好。为了解决以上两个问题,本文针对中文语言特点,首先提出了中文字符级句法特征对齐算法;然后基于此算法又提出了句法和语义特征融合的中文事件抽取方法(CHEE)。在真实数据集上的实验结果表明,提出的方法能够显著提高中文事件抽取的性能。三、研究了基于新闻事件抽取的离散变量预测模型——以新闻推荐为例,提出了基于事件抽取的新闻推荐框架。为进一步改进中文事件抽取方法的效率,从神经网络设计结构上对CHEE进行改进,提出了LC-CHEE模型。目前新闻推荐场景多特征融合框架中存在两个不足:(1)利用新闻正文时采用注意力机制从全文文本中捕捉重要词汇,此种方法获取的特征不够精细、噪音大;(2)在推荐系统框架中引入了过多的注意力参数,同时增大了训练语料的需求。针对这些问题,首先利用改进的LC-CHEE模型从新闻文本中抽取中文事件信息;然后提出一个基于事件抽取的新闻推荐框架(EENR)。一方面EENR利用事件抽取来抽象更高层次的新闻事件特征;另一方面EENR还使用两阶段训练策略来减少推荐网络后续部分的参数。在真实新闻推荐数据集上的实验结果表明,提出的EENR显著提高了新闻推荐的性能。四、研究了基于新闻事件抽取的连续变量预测模型——以仇恨犯罪预测和原油价格预测为例,提出了基于事件抽取的仇恨犯罪预测框架和原油价格预测框架。(1)针对仇恨犯罪预测相关影响因素难以量化的问题,本文首先构建了基于局部特征和全局特征的事件抽取模型;然后利用该模型从新闻报道中抽取仇恨犯罪事件,并根据相关仇恨犯罪动因理论构建事件因子;最后提出了一个基于事件抽取的仇恨犯罪预测框架(EEHCP)。在真实的仇恨犯罪数据集上的实验结果表明,提出的EEHCP显著提高了仇恨犯罪预测的性能。(2)国际原油价格除供求关系外,很大程度上还受经济发展水平、金融市场、局部冲突或战争、政治事件等多种因素的影响。最近的研究大多是直接利用新闻标题或主题模型提取新闻文本特征,并未深入挖掘新闻包含的事件信息,本文主要研究了如何利用开放域事件抽取方法来增强国际原油价格预测的问题,并提出了一个多特征融合的原油价格预测框架(AGESL)。主要创新点有两个:将开放域事件抽取算法引入到原油价格预测问题,解决了金融价格预测对新事件敏感的问题;提出了一个融合时间序列、情感分析、事件等多特征的原油价格预测框架AGESL,丰富了现有原油价格预测模型。在真实国际原油价格指数数据集上的实验结果表明,提出的AGESL框架能显著提高国际原油价格预测的性能。本文以基于新闻事件抽取的预测模型为主要研究内容。首先提出了基于新闻事件抽取的预测框架并确立了事件抽取模型和预测方法选择的原则;然后根据预测框架模块分别做了研究。事件抽取模块提出了一个新的中文事件抽取方法;预测模块分别在离散变量预测任务和连续变量预测任务选取有代表性的应用研究了具体的预测模型。本文提出的事件抽取方法和具体预测模型都在真实数据集上做了实证检验,实验结果也证明了提出的预测模型框架的有效性。本文提出的事件抽取方法和基于事件抽取的预测模型,对信息抽取及其应用研究具有重要的理论和实际价值。
其他文献
特色小镇是我国推进新型城镇化的重要手段,也是探索乡村振兴过程中的独特创新。通过“进城不离乡”“就地城镇化”等方式,特色小镇为全国乡村振兴开辟了一条新路。然而,这项立意高远的政策创新在各地具体落实的过程中却出现了意想不到的异化与泛滥现象,许多无特色的乡镇以“特色小镇”名义浪费了公共财政资金,引起了中央的重视。所谓的“特色小镇”在全国过度扩散,其诱发因素不是偶然的。本研究基于2015-2020年间32
期刊
改革开放以来,商业银行一直在中国经济发展中扮演者着重要角色,银行信贷变化无时无刻不牵动着中国经济波动,信贷管理也是政府控制经济的重要措施之一。我国金融市场发展形成了以间接融资为代表的融资结构,银行信贷在我国信贷中占很大比重。中国人民银行的调查显示,2017年中国非金融机构间接融资的比例高达65%,中国企业大部分间接融资都依赖于银行。因此,探讨银行信贷的影响因素一直是理论和实务界关注的焦点。回顾国内
学位
领导力研究历来是组织行为学的一个重要分支。上世纪三十年代,西方开始对领导理论展开了深入研究,相继提出了领导的特质理论、行为理论、权变理论等,并对变革型领导、魅力型领导等领导风格进行了探讨。直到20世纪90年代,经济全球化成为主流,经济发展的格局、形态都发生了深刻变化。与此同时,一些企业在追求自身利益最大化的同时,置社会危害于不顾,出现了虚假广告宣传、产品以次充好、偷税漏税、商业贿赂等有损企业信誉的
学位
政治关系如何影响一国出口真实贸易利得和全球价值链生产合作?现有政治关系影响经贸往来的相关文献表明,提升政治关系对两国之间的贸易具有促进作用,而政治冲突会阻碍两国间的贸易往来。但是,现有研究还停留于对总额贸易的分析,尚未考虑全球价值链背景下的增加值贸易。全球价值链的发展使得总贸易中同时存在多国的增加值,根据总贸易数据无法了解贸易中出口国获得的真实贸易利得,其中的本国增加值才是出口国提供的真实价值。并
学位
近年来,随着网络直播+购物的迅速发展,直播购物成为很多人的消费选择,短短数年间,创造出一个又一个销售奇迹。2021年10月20日,李佳琦就创造了106.53亿人民币的直播销售神话。电商主播作为电商直播的最重要部分,不仅为消费者提供介绍和推介商品的作用,也为品牌起到宣传和销售的作用。电商直播不同于一般意义上的网络销售,以其自身独特的销售技巧和销售方式,成为连接产品或品牌与消费者之间的坚实桥梁。消费群
学位
中华优秀传统文化是中华民族传承的精神血脉和独特的精神标识,有着以文化人的重要育人功能。数字化技术的快速发展,带来了互联网信息媒介样态的多元化、传播渠道的泛在化、受众需求的个性化,也带来了文化育人的数字化革新。数字化技术背景下中华优秀传统文化育人功能优化,有着规避陷入技术伦理的价值导向、实现以文化人的育人价值目标、防范意识形态安全风险的价值诉求。数字化技术背景下中华优秀传统文化育人功能发挥的现状表现
期刊
报纸
长期以来,中国银行业在市场准入政策的保护下形成了国有银行占据主导地位的垄断性结构,而其他商业银行的经营活动则基本局限在各个分散的区域性市场里。为了促进银行业的市场竞争,近年来政府相继出台了以放松商业银行异地市场准入为主要内容的改革措施。在管制放松背景下,跨区域经营战略逐步受到了商业银行特别是中小商业银行的重视,许多具备条件的商业银行实施了异地设立分支机构的跨区域扩张,相关问题受到了广泛关注。诸多研
学位
随着DNA测序技术的不断进步,生物信息领域进入了数据“爆炸”的时代,研究人员迫切需要高性能的计算方法来处理海量数据,从中提取有用的信息。本文针对目前测序数据分析的两类关键问题进行了专门的讨论。本文第一部分聚焦于癌症异质性数据的稳健亚组分析。人类的高维基因组数据表现出明显的异质性特征,并且异常值和厚尾分布的情况在生物数据中屡见不鲜,但现有的绝大多数亚组分析方法都不能很好的处理类似情况的数据。为此,我
学位
自1978年改革开放以来,国企改革一直是中国经济改革的关键构成和国民经济稳定发展的重要基础。2021年政府报告明确提出“深入实施国企改革三年行动,做强、做优、做大国有资本和国有企业”。国企改革过程中的一条主线为“所有权改革”,即:在国有企业中引入民营资本和市场投资者,将部分或者全部所有权或者控制权移交给市场投资者或者民营资本,以实现对国有资本的盘活和国有企业市场化经营机制的培育。这一过程被称为国有
学位