基于中文短文本的命名实体识别和实体链接方法研究

来源 :浙江科技学院 | 被引量 : 0次 | 上传用户:yanguoke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上中文短文本的爆炸式增长,以及由中文短文本组成的网络语料库也逐渐增多,中文短文本在各种网络应用中都发挥着重要作用。命名实体识别和实体链接是自然语言处理中的关键任务,也是处理中文短文本的重要技术,能够将非结构化的中文短文本数据转换为结构化的可利用数据,同时影响着自然语言处理中许多下游任务的准确性。然而,由于中文短文本表达不规范,以及语义极其稀疏等特点,对中文短文本进行命名实体识别和实体链接仍是一项具有挑战性的问题。目前中文短文本研究领域,对于命名实体识别的研究大都采用结构化的特征融合方式,无法使得特征进行深入知识交互,对于实体链接的研究大都存在语义信息利用不足问题,且忽略了标签与原始短文本间的交互作用。为此,本文围绕中文短文本的命名实体识别和实体链接展开深入研究,提出了基于预训练模型改进的新型模型,并且将本文提出的模型用于可视化的实体链接系统中。本文具体研究成果如下:(1)针对现有的中文短文本命名实体识别方法未考虑将部首特征进行充分融合问题,本文提出了一种基于Roberta部首增强适配器的命名实体识别模型。该模型设计了一个部首适配器将中文短文本的部首信息融合到预训练模型Roberta的底层,使得部首特征与Roberta提取的语义特征进行深入知识交互,最后使用考虑相邻标签依赖性的条件随机场模型预测标签序列。通过公开数据集上的对比实验,证明了该模型能够提高实体识别的准确率。(2)针对现有的中文短文本实体链接方法未充分利用语义信息和忽略标签与文本间的交互问题,本文提出了一种基于Roberta句向量标准化和标签嵌入的实体链接模型。该模型首先通过预训练模型Roberta来充分捕捉上下文语义信息并以句向量表征提取的上下文信息,然后通过流模型修正句向量的各向异性问题,使得句向量中的上下文信息能被更精确地表征。此外,还通过标签嵌入和文本嵌入间的交互来改善不可链接实体的分类性能。通过公开数据集上的对比实验,证明了该模型可以有效提升实体链接的性能。(3)针对命名实体识别和实体链接的可视化问题,本文构建了一个面向中文短文本的实体链接系统。该系统前端允许用户输入一段中文短文本,然后经过后端的命名实体识别和实体链接模块输出识别的实体指称、实体指称的候选实体集和最终链接情况。该系统能够通过随机短文本验证本文提出模型的实用性,并且能够用于智能问答和知识图谱扩建等下游任务中。通过上述的研究工作,证明了我们提出中文短文本命名实体识别和实体链接模型的有效性,能够促进命名实体识别和实体链接研究方法的进步,对许多自然语言处理任务提供了新的思路。
其他文献
党的二十大提出“中国式现代化”重大命题。近代以来,中国乡村治理的建构与演进,无疑构成一条独特的中国式乡村治理现代化道路。中国式乡村治理现代化意味着,国家治理由传统迈向现代的深刻转型,追求一种结构性“善治”,持续推进国家治理体系和治理能力现代化,以及最终服务于中华民族伟大复兴。通过长期的历史塑造,中国式乡村治理现代化逐渐稳定、成型,形成了独特的中国模式,其要点在于:坚持党的领导、一统体制与因地制宜辩
期刊
随着人们环保意识的增强,人们对清洁能源需求日益增多,太阳能作为一种常见的清洁能源得到广泛的关注。太阳能的输出受到天气条件的巨大影响,主要影响因素是云的类别及云相对于太阳的位置。针对以上问题,本文使用深度学习及压缩感知技术对地基云的识别和分割进行研究:(1)针对地基云分类精度不高的问题,提出一种基于双通道神经网络地基云分类算法。使用迁移学习训练两个子网络,通过融合的网络特征进行分类。实验结果显示该算
学位
强化学习(Reinforcement Learning,RL)是属于机器学习(Machine Learning,ML)一部分,是一种智能主体在与环境交互的过程中获得最优策略的方法。为了提高深度强化学习算法的策略优化能力与算法的收敛性,本文将以策略优化算法为出发点,分别以原始的异步优势行为者-评论家(asynchronous advantage actor-critic,A3C)算法和近端策略优化(
学位
随着人们对日用品的外观品质提出越来越高的要求,搪瓷礼盘因其优秀的文化及外观价值,受到越来越多海内外顾客的青睐。而现阶段搪瓷礼盘表面缺陷的检测依旧停留在人工目视及抽检的阶段,该类人工方法不仅劳动重复性高且检测效率低下,无法满足工业生产的要求,严重阻碍了企业的高质量发展。针对上述问题,本文研究设计了一套搪瓷礼盘表面缺陷视觉检测系统,其主要内容如下:(1)为将单个搪瓷礼盘检测耗时控制在3000ms以内,
学位
随着世界经济的发展,人类对电能的需求逐渐增加,而传统的发电方式主要通过发电厂燃烧化石能源产生,化石能源的不断开采和燃烧造成全球能源短缺和环境污染问题逐渐显露。同时,由于国家政策和资金的大力支持,可再生能源发电技术、储能电池技术以及电动汽车产业在国内得以迅速发展,让微电网技术也获得了新的发展。但是,随着电动汽车数量不断增加和可再生能源设备大规模建设,电动汽车无序充电行为和可再生能源受环境等因素导致出
学位
随着国民经济的增长,我国的汽车保有量也在快速增长,道路上车辆随之增多,交通事故的发生也更加频繁。交通事故发生的主要原因之一是驾驶员的危险驾驶行为,如超速、急转弯、疲劳驾驶等,如果对危险驾驶行为进行及时的检测和警告,就可以减少交通事故的发生。为此,本文开展基于车联网的驾驶行为评价系统研究,研究内容包括车辆数据采集、无线数据传输、云服务器数据处理、驾驶行为评价和移动端应用程序数据显示。系统根据制定的评
学位
中国作为世界第一水产养殖大国,水产品产量稳居世界首位。中国传统水产养殖主要以个人化为主,水产养殖即养水,养殖人员大多根据以往的养殖经验进行水质状况的判定,且无法对水质状况进行提前预知,还容易因为个人操作致使水质恶化。随着物联网技术的发展,智能化水产养殖已逐步成为可能,本文将基于物联网技术设计一种可协助养殖人员对水产养殖水质实现智能化管理的水产养殖水质综合应用小程序,可实时观察水质状况并对未来一段时
学位
随着计算机技术以及网络技术的不断发展,互联网用户普遍面临信息过载问题。推荐系统能够作为一种有效解决信息过载的工具,其能够从用户的行为数据中挖掘出用户的兴趣。然而在实际应用中,选择匿名登陆的用户或者新用户的历史档案等信息是不可知的。如何利用有限的行为数据以及交互项目种类之间的高阶联系来缓解数据稀疏的问题是目前推荐算法的一个难点。而对于非匿名用户来说,虽然拥有大量历史数据帮助推荐,但是其存在数据噪声过
学位
随着第五代无线通信系统(The Fifth Generation Communication System,5G)时代的到来,汽车保有量不断地增加,海量无线业务数据朝多样化、智能化方向发展。此外,高频段毫米波因其具有波束窄、宽带宽、低延迟、穿透性高等特点被认为是未来车联通信系统的关键技术。基于概率整形(Probabilistic Shaping,PS)与正交频分复用(Orthogonal Freq
学位
电力系统的稳定运行对维护社会稳定发展具有重要意义,变电站作为电力系统的枢纽,相关绝缘子设备由于受到机械应力以及室外恶劣环境的影响,绝缘子容易产生破裂破损,威胁电力系统安全稳定。因此,对变电站绝缘子设备定期巡检对维护电网安全具有重要意义。本文以变电站绝缘子缺陷检测系统设计为研究内容,对现有的Yolov5s与Faster R-CNN算法进行精度以及适用性上的改进,以及移动端绝缘子缺陷检测设备的实现。本
学位