潜在句子层级结构的自适应表征学习方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:shengyue1212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表征学习被普遍地认为是当前自然语言处理领域的基本问题,主要是为了学习字符、词汇、和句子等文本结构的数值表示形式。自然语言处理任务的效果不仅依赖于相关算法是否有效,也取决于文本表征学习能否学习更有效的文本数据表示。现阶段,基于分布式统计假设的文本表征方法利用海量文本进行统计建模,能够将自然语言中的语义信息映射到低维稠密的向量空间中。然而,现存的文本表征方法依然存在一些问题,如忽略了蕴藏在语法结构中的语义信息。而结构化表征方法中的文本结构通常需要作为输入显式提供,或者通过从带有词性标记的大量文本中有监督地学习。当前的文本表征学习方法中具有自适应结构化的模型比较少,相关问题急需研究。基于此,本课题提出了一种对文本的潜在句子层级结构进行自适应表示学习的方法。通过从海量文本中学习单词语义信息和感知句法结构,该方法利用强化学习实现文本的潜在句子层级结构发掘,由此代替了传统的文本结构化表征方法中为了识别文本结构而执行的特征工程,从而节省了大量时间与精力,而且也带来结构化的泛化性能提高。为了进一步实现对文本的“单词-词组-文本”层次结构表示,设计了一个双层神经网络模型,可以接收由强化学习根据输入文本生成的动作序列,构造该文本的层次结构表示。此外,该方法构建的潜在层级结构与上层任务无关。在情感分析、主题分类、主客观分析等文本分类任务上与多个基准方法进行对比实验,本方法均优于相关研究。进一步地,在多领域情感分析任务中,针对情感词在不同领域中的多义性导致情感预测准确率降低的问题,本文在对文本的“单词-词组-文本”层次结构表示学习的基础上,提出了一种“单词-词组-文本-主题”层次结构的情感分析方法。该方法利用主题模型对数据集进行主题聚类,并分别地用同一主题的文本数据集训练基分类器,使得基分类器被绑定了主题信息。利用同属于一个主题的文本数据集训练情感基分类器,可以减少一词多义对情感极性判断的混淆。在情感分析时,使用目标文本的主题概率分布为基分类器赋予权重,从而充分地考虑文本属于不同主题的可能性。本课题在三个公开数据集上进行对比实验,验证该方法对分类精度具有明显提高。
其他文献
顾绣作为刺绣的杰出代表,具有上海地方代表性和东方文化特色,是我国独特的艺术文化符号。2006年5月20日,顾绣被列入到第一批国家级非物质文化遗产名录中,之后在2018年11月28日,上海师范大学获批教育部首批“中华优秀传统文化顾绣传承基地”,作为上海师范大学的学生深感荣幸的同时也意识到自己作为中华民族的一份子,我们肩上传播传统文化的重大责任。本文选取顾绣为研究对象,基于传播学理论,通过文献分析法、
近年来,国内外发生的多次大停电事故严重影响了社会秩序和经济发展。研究结果表明,大停电往往是由连锁故障引起的,而连锁故障的成因和发展过程都比较复杂,并且其复杂性随着电
硅单晶作为最重要的半导体材料,在国民经济、国防科技等各个领域有着广泛应用。在CZ硅单晶生长过程中,放肩是保证晶体顺利进入等径生长的关键工艺阶段。易出现由位错引起的断
串级连续搅拌反应釜(cascade continuous stirred tank reactors,CCSTRs)操作简单、反应充分,而且可以连续添加反应物、取出生成物(即产品),因此,被广泛应用在许多化工生产过
随着我国桥梁技术的飞速发展,预应力混凝土梁桥越来越多,超载车辆和运输易燃易爆物品的车辆日益增加,桥梁发生火灾的几率大大增加,桥梁火灾后预应力混凝土梁板在车辆荷载反复作用下,其疲劳性能和疲劳寿命发生变化。本文针对火灾后预应力混凝土梁板在疲劳荷载作用下的疲劳性能和疲劳寿命问题,主要研究了以下几个方面的内容:(1)利用钢筋混凝土试块和预应力混凝土梁板进行火灾试验和有限元数值模拟,研究不同火灾工况下混凝土
目的探讨通过尾静脉移植方式研究人脐带间充质干细胞外泌体对扩张型心肌病模型大鼠心肌微血管再生及心功能恢复的影响。方法1.构建扩张型心肌病(DCM)大鼠模型并鉴定采用六周
肺是人体呼吸器官,其内部环境直接与外部环境相通,长期呼吸带有颗粒污染物和有害气溶胶的气体会导致慢性阻塞性肺疾病(COPD)、哮喘等疾病,但是目前人们对微纳米级颗粒物在肺
被动相干定位(Passive Coherent Location,PCL)又称无源协同定位,表示雷达本身不发射电磁波,而是通过直达波信号与经目标反射的信号相干处理实现对目标定位。在PCL背景下,接
交通拥堵日益成为大城市面临的主要交通问题,干线协调控制是缓解交通拥堵的有效方式,而周期和相位差一直是进行协调信号控制的关键参数,但是基于固定流量和相位差的协调控制与现实交通环境的多变性不适应。随着车辆识别和电信技术的发展,可以从数据库中获得高精度的图像数据和经过处理的车辆信息数据,这些数据可以为干线协调控制提供实时的交通数据,根据不同的交通状态,制定可行、可靠的协调方案,进而能够有效地提高道路通行
随着我国社会经济的不断发展,食品的种类也越来越丰富,食品安全日益成为了人们关注的焦点。食品安全检查作为食品安全监管的一项重要手段,是食品安全的基本保障。现阶段我国