文本分类中语义增强算法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kueixing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理技术的快速发展加速了文本分类的研究进程,文本分类经历了人工构造分类器、有监督学习分类、半监督学习分类到现在的无监督分类。目前,常见的问题包括:文本分类数据中存在大量的多义词现象,这使得普通方法的效果不高;作为特殊的数据载体,中文文本语义体现在不同的方面,比如同音不同字、同字不同音、蕴含汉字背景含义的情况,这表明单单抽取汉字的语义信息不足以充分获取到句子的语义信息。针对以上不同问题,提出了对应的解决方案,具体如下。针对文本分类中多义词造成模型抽取语义不准确的问题,提出了一种将实体的事实知识注入到预训练模型BERT中的新方法。具体来说,首先,使用开源知识库查询实体的邻接节点作为实体的拓展语义,并将其与与所在文本句向量做相似度计算,得分最高的词即为中心词的具体含义。最后,SQu AD、NER等任务上分别对模型进行验证和测试。实验结果表明,模型在SQu AD、NER等任务上优于同样参数的BERT模型。针对中文文本分类中文本语义的多种表达形式的情况,提出了一种基于汉字多粒度表达的语义融合框架。具体来说,首先,分别使用相关工具生成中文对应的偏旁部首、拼音以及五笔序列。然后,提出一种基于注意力机制的模型框架融合汉字、拼音、五笔和偏旁部首级别的语义来进行中文文本分类。模型在四个广泛使用的开源中文文本分类数据集上进行测试,并详细对比了包括LSTM、BERT等多个模型。实验结果表明,融合多粒度的模型架构在中文本分类中要优于普通的分类模型。针对文本分类中实体对文本的重要影响,提出了一种实体感知机制的文本分类模型。具体来说,在文本中占据重要意义的实体之间的联系构成了非欧几里得图结构,普通的基于序列的神经网络不能够有效抽取其实体间联系的特征。为此提出了图卷积神经网络对实体图进行特征卷积,并将实体的词嵌入注入到文本序列中形成了实体感知的文本分类编码器,以此提高模型对文本关键特征的抽取能力。最后,在THUCNews上进行对比实验,实验结果表明,在绝大部分情况下,基于实体感知的分类模型要优于普通的文本分类模型。
其他文献
无线电能传输(WPT)与电磁超材料是本世纪兴起的两项前沿技术,前者被广泛应用于医疗、电动汽车、消费类电子产品等领域,而后者仍处于初步发展阶段。本论文将两者有机结合,围绕磁耦合谐振式无线电能传输系统在米级传输距离时效率低下和电磁泄露问题,开展了电磁超材料用于系统的电磁调控性能研究,主要研究工作和成果包含以下几个方面:1)理论分析了磁耦合谐振式无线电能传输系统常用两线圈结构、四线圈结构的传输特性,阐述
学位
随着集成电路技术日新月异的迅速发展,电路的小型化、低功耗化、高稳定性促进了物联网设备的广泛应用。同时,物联网智能设备具有的低功耗、小尺寸和低维护成本特性又反过来对低电压低功耗集成电路提出了新的要求,尤其是电源管理模块。电池供电的方式需要更换或者充电以维持长期使用,这种方式需要可长期供电的电源来支持,而能采集环境能量的能量采集电路作是具有潜力的供电方案。本论文关注于可实现最大功率点跟踪的低电压太阳能
学位
随着“双一流”建设步伐的加快,学校引进越来越多的科研高水平人才,新晋教师已经成为高等院校教师队伍的生力军。新晋教师掌握前沿科研技术,具有较高的学术水平,但从业时间短、教学经验不丰富等问题影响了学校教学质量。为了提高学校教学质量,增强高校竞争力,以H校计算机学院为例,详细论述该学院借助专业课程群团队建设培养新晋教师教学能力的新模式,启用具有丰富经验的教师指导新晋教师,并分析培养方案实施效果,以期为其
期刊
近年来,随着遥感卫星数量的增多和摄影成像技术的进步,我们能够获得更多高分辨率的遥感卫星图像。其中,遥感图像的语义分割对城市建设规划、农业、土地资源管理等方面有着重要参考应用价值。自从2012年进入深度学习时代以来,研究人员相继提出了Alex Net,VGGNet,Google Net,Res Net,Dense Net等性能优异的卷积神经网络。遥感图像处理也随之迸发了新的活力,从遥感图像的场景分类
学位
报纸
波纹杂交夹芯夹层结构是一种可应用于船舶与海洋结构物,航空航天,车辆载具的新型结构。该结构在生产工艺、静动态力学特性等诸多方面相比与传统的加筋板、蜂窝夹层板、三维点阵夹层板、PVC夹层板、纤维增强复合材料板、玻璃钢板等结构形式有较大的不同。本文试图将V型和Ⅰ型杂交夹芯夹层结构应用于船舶结构设计,制备了四种类型的波纹夹芯金属夹层板,实验测量了结构入水过程中速度,砰击压力以及加速度。通过三维扫描测量模型
学位
随着工业控制系统对产品质量和运行安全的要求不断提高,控制性能监控(Control Performance Monitoring,CPM)在闭环工业系统中发挥着越来越重要的作用。在工业系统的运行中,系统性能的退化取决于控制器的调整、设备的退化、未测量的扰动、模型失配(Model-plant Mismatch,MPM)等因素。对于基于模型的控制器来说,它在设计初期往往运行正常,但是随着运行时间的推移和
学位
复杂网络被广泛地应用于社会学、经济学、生物学等多个领域,以研究系统的功能和特性。鲁棒性是复杂网络的重要特性之一。网络鲁棒性受许多因素的影响,例如网络方向性、网络的层数、依赖关系、攻击方式和节点的自恢复性等。现有研究大多局限于单层网络、多层无向网络、或多层有向网络在随机攻击下的鲁棒性,然而许多真实网络都是有向的。本文研究双层和多层有向网络在蓄意攻击下的鲁棒性以及带恢复性的有向网络的鲁棒性,提出了相应
学位
中日唐代建筑脊头装饰图形作为文化交流的产物,蕴含着丰富的文化基因,具有很高的社会、历史文化价值和艺术价值。本文通过文献研究的方法厘清了中日唐代建筑脊头瓦和鬼瓦的发展脉络,运用建筑学、艺术学和传播符号学等多学科交叉的研究方法来比较分析中日唐代建筑脊头装饰图形信息的编码与解码的活动,揭示装饰图形符号所隐藏的内蕴意义及其传播规律,并结合“文房系列产品应用设计”的案例设计实践来探讨其作为文化基因在文创产品
学位
带有节点内容信息的复杂网络(属性网络)在日常生活有着广泛应用,例如,社交网络,引文网络和蛋白质网络。通过在属性网络中进行社团分析任务可以解决好友推荐和内容推荐等现实问题,然而,现实生活中节点的属性和结构特征的信息来源往往差异较大,通常情况下属性特征维度和节点数目也较大,因此,使用以Kmeans为代表的经典机器学习方法解决属性网络的社团分析问题十分困难。网络表示学习(网络嵌入)旨在是将网络中的节点表
学位