面向中文新闻要素抽取技术的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jiayunhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和计算机技术的发展,如何从海量的信息中快速获取关键信息已经成为了学术界亟待解决的重要问题之一。因此从中文新闻中抽取关键信息有着重要研究意义,同时也是论文的研究重点。论文从实体抽取、事件抽取、摘要抽取三个方面研究了中文新闻要素抽取技术。针对中文新闻要素抽取过程中存在的问题,论文进行了以下研究:(1)论文提出了一种基于词汇增强的实体抽取方法,解决了传统中文命名实体识别模型中仅使用字符向量表达存在的局限性。通过基于词汇增强的字词网格(Lattice)结构实现字词的联合嵌入,以及输入层的多特征嵌入,融合了汉字的字词特征和语义信息。编码层通过双向长短期记忆网络(Bi LSTM)结构提取字符在句子中的语义特征,同时引入了注意力机制调整隐藏层之间的权重分配,最后使用条件随机场(CRF)进行解码,得到全局最优序列标签。论文在Resume数据集和Boson数据集上进行对比实验,对模型的有效性和可行性进行了验证。(2)论文提出了一种基于机器阅读理解(MRC)方式的事件抽取方法,解决了传统事件抽取存在的论元重叠和难以捕捉语义信息的问题。由于中英文语言的差异性,不能直接使用面向英文文本的问题模板,因此论文设计了适用于中文事件抽取的问题模板,使用BERT作为基础模型,将MRC应用到事件抽取任务中,并设计对比实验对模型的有效性和可行性进行了验证。(3)论文提出了一种基于改进的Text Rank算法的摘要抽取方法,兼顾了文本的语义特征和统计特征。算法基于TF-IDF和Word2vec的文本向量化模型,引入了一种加权余弦相似度的计算方法,以此代替Text Rank算法原本的相似度计算方法,并引入最大边缘相关(MMR)算法对文本的冗余度进行控制。最后通过对比实验,对模型的有效性和可行性进行了验证。此外,论文基于各改进模型进行了系统实现,设计开发了中文新闻要素抽取系统。
其他文献
随着移动无线通信设备的广泛使用,无线网络容易受到窃听与干扰等安全威胁,因此如何利用发射机射频信号的细微差异来识别和跟踪射频(RF)设备是物理层安全领域的重要课题。针对高相似度射频设备发射的稳态(瞬态)射频信号特征提取困难,小波分析可以对频带精细划分从而提取更完备的指纹特征,多小波相比单小波而言,可同时拥有正交、对称和高阶消失矩等优良性质,因此本文探索了基于多小波包子带分解的特征提取方案。本文基于多
学位
耗能减震技术通过在结构中合理设置耗能装置,利用耗能装置来耗散能量,从而有效地避免结构在地震作用下发生严重的变形和破坏。转动摩擦阻尼器是被动式耗能减震装置的一种,与其他类型耗能阻尼器相比,其最大优势在于构造简单且耗能可控。目前国内外针对转动摩擦阻尼器的研究主要聚焦阻尼器自身的耗能机理,针对带有转动摩擦阻尼器钢框架结构的耗能机制、耗能效果以及阻尼器参数变化等方面的研究较少。本文提出一种优化后带有转动摩
学位
随着电力系统智能化的发展,越来越多的电子设备集成到气体绝缘变电站(Gas Insulated Substation,GIS)系统当中。作为变电站内主要的测量设备,电子互感器具有良好的动态特性和频率响应特性,逐渐取代传统的电磁互感器。然而,当变电站内隔离开关操作时,会产生幅值高、频率大的暂态电磁干扰,耦合到由集成电路芯片组成的低压电路单元中,导致电子互感器在实际使用中具有极高的故障率。因此,本文针对
学位
随着传感器技术、智能算法、计算机科学与技术的不断突破,以无人机群、卫星编队、水下航行器协作等为代表的多运动平台系统大量涌现,其协同应用如监测搜索、空战对抗等开始广泛应用于军用和民用领域。在多运动平台协同位姿估计方面,当面临GPS等外部测量信息缺失时,可利用惯性和视觉测量作为平台信息来源,建立各平台单元多传感器数据融合框架。目前多数研究主要依赖于各平台单元独立解算,或是融合位置姿态等信息进行欧式空间
学位
化学农药的使用降低了病虫害对农作物的危害,极大地提升了农业产量。但是由于化学农药的过度使用,致使农药残留、地下水、土壤污染等问题日趋严重。因此,环境友好型的绿色农药的研发对生态环境保护,推动绿色农药科技兴农建设具有重要意义。本论文旨在对陆生植物来源的真菌培养过程中加入海水,进行高盐胁迫,以期获得结构新颖、生物活性优良的天然化合物,将来源于芦荟秸秆优势菌株进行海水静置发酵,并利用活性追踪技术对其次级
学位
数字化技术如今已经应用到生活中的多个领域,其中也包括文化遗产保护领域。随着世界对文化遗产的重视程度越来越高,国内外对于文化遗产的数字化保护也逐渐提上日程,纷纷抢占文化保护与传播的先机。国内对于文化遗产数字化研究与实践的起步较晚,但在相关政策的支持下发展迅速,传统农具作为我国农业文化重要的物质载体,不仅见证了中国古老的农耕历史,更是凝聚了古代劳动人民丰富的设计智慧与理念。但是随着农业机械化的推进,很
学位
近年来,碳达峰、碳中和已成为国际社会的基本共识,双碳背景下的环境保护是当今世界关注的焦点话题。随现代化进程的高速发展,全球存在大量的废弃橡胶制品,已严重污染环境,危害生态平衡。另一方面,倡导和践行“绿色革命”已成为岩土工程学科发展的全新目标。因此,如何回收处理并循环利用废弃橡胶将有利于双碳目标的实现并助推社会的可持续发展。膨胀土在全球范围内分布广泛,被称作“问题土”,其显著的胀缩性是导致工程事故的
学位
四旋翼飞行器近年来发展迅猛,广泛应用于众多领域。其构型简单,机动性良好,制造成本低,具有可观的商业价值,成为控制领域的研究热点。四旋翼飞行器的数学模型为一类多入多出(MIMO)系统,存在欠驱动、不确定性、强耦合等复杂性特点,控制难度较大,其控制系统具有较高的研究价值。自抗扰控制(ADRC)技术是一种不依赖模型精度的先进控制技术,常用于不确定性非线性系统的控制,在解耦方面也有良好的表现。本文将基于自
学位
现代社会是一个合作共享的社会。为了实现互惠互利,越来越多的企业开始选择将数据进行共享,以求实现更加方便快捷的合作。此外,随着云技术的发展,越来越多的企业也选择将数据存放到云数据库中,来避免本地部署的高额代价,从而高效的实现数据共享。然而,数据共享的各方之间并不一定是互相信任的。参与的角色无法得知数据是否遭受篡改,也无法准确定位做出恶意行为的实体。区块链的出现似乎为数据共享提供了一个可行的方案。由于
学位
随着科学技术和自动控制理论的不断发展,变风量(Variable Air Volume,VAV)空调控制系统的研究也愈加深入。控制技术的不断改进是VAV空调稳定运行的前提,因此需要在冷冻水系统中采用合理的控制方式。VAV空调的负荷具有复杂的多变性,当空调处于部分负荷的工况时,冷冻水系统常在小温差、大流量的条件下运作,从而一定程度上导致能量的浪费,增加了冷冻水系统运行的不稳定因素。若使用现代变流量技术
学位