网络小说实体关系抽取技术研究与系统实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:qwer_xxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读网络小说作为人们的消遣方式之一,是很多人闲暇时愉悦身心的选择。一本小说需要塑造很多不同角色来推动故事情节的发展,但网络小说篇幅较长,阅读耗时较多,读者记忆不深刻,前后文衔接不上,影响阅读观感。如何应用深度学习技术将其复杂的文本结构转化为清晰明确的结构化信息是本文的主要研究内容。针对以上问题提出命名实体识别模型以及关系抽取模型,更进一步将二者联合建模,解决实体冗余、关系重叠等问题,从而实现网络小说文本的实体关系抽取研究。论文主要研究成果如下:(1)构建基于BERT-Bi LSTM-CRF的网络小说命名实体识别模型为了更好的抽取网络小说文本特征,构建小说文本语料库,提出了基于BERT-Bi LSTM-CRF的命名实体识别模型。通过BERT预训练模型生成动态词向量,提高语义提取和词向量表征效果,BERT微调适应领域任务需求。将得到的向量序列输入Bi LSTM模型对文本序列进行全局特征提取,CRF模型计算出最优化的标签序列。与其他几种算法模型进行对比,验证了本模型在命名实体识别任务上的有效性。(2)构建融合Bi GRU和注意力机制的网络小说实体关系抽取模型针对中文网络小说的实体关系抽取任务,提出融合Bi GRU和注意力机制的网络小说实体关系抽取算法模型。使用Bi GRU模型提取上下文信息可以得到更深层次的语义理解,解决长期记忆的问题,提取文本全局特征。融合字和句子级别的双重注意力机制模型提取句子中不同字符与上下文的关联程度,解决长距离依赖问题,同时自动对不同句子类别赋予特征权重,提升局部特征提取效果,成功挖掘句子中的有效信息。实验结果表明本文模型在网络小说实体关系抽取范畴具有一定效果。(3)构建基于特征增强的网络小说实体关系联合抽取模型相比于流水线方法,联合学习方法利用实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,缓解流水线学习错误传播的缺点。本文基于分解策略的思想,提出了基于特征增强的实体关系联合抽取模型。模型在输入层使用BERT预训练模型,融合命名实体特征和词性标注特征得到文本特征信息,通过头实体识别层得到头实体编码向量,和多头注意力机制得到的文本编码信息融合对尾实体及关系的整体识别,获得实体关系抽取的三元组,完成网络小说的实体关系联合抽取实验。与传统的研究方法相比,本文模型性能上有明显的提升。
其他文献
随着社会与人类文明的进步,志愿服务进一步发展,志愿服务的内容更加丰富,参与志愿服务的人群也越来越多样,儿童在社会的号召下也加入了志愿服务的队伍中,成为志愿服务活动的重要储备军。本文以重庆市J社区的儿童志愿者服务项目为依托,运用访谈法、问卷法、参与式观察法等进行调查评估,基于收集的资料分析发现,该社区儿童志愿者社会经验少,身心发展还不成熟,参与志愿服务的技能不足、团队协作能力不够、对志愿服务的认知也
学位
铁道兵部队规模高达四十余万人,如今,这些铁道兵纷纷步入老年,养老问题也伴随出现,从青年时期参军入伍,到后来被撤编并入铁道部工作,再到后来年满退休,他们有着复杂的人生经历。当前我国对年满60周岁的退伍老兵按规定给予抚恤优待,但对他们精神文化需求层面的关注仍显不足。退伍铁道兵退伍退休后存在生活单一、社会各方面资源流失、个体心理落差大等问题,因此如何改善退伍铁道兵精神文化生活,帮助其提升社会参与的积极性
学位
自我国资本市场建立以来,上市企业同时保持高货币资金和高额有息负债“存贷双高”的异象一直是一个普遍存在。从企业内部来看,存贷双高只是企业为满足流动性需要的一种资产配置及财务管理手段,并未引起学者们广泛关注,对此方面的研究也基本仅限于企业管理或财务管理等内部视角。但随着康美药业等存贷双高型企业发生股价崩盘,并引起整个股票市场波动,严重打击投资者信心,阻碍了我国资本市场的深化改革和有序发展。国内学者也将
学位
农村留守儿童是我国经济发展过程中衍生出来的一个弱势群体,其身心健康是国家和社会关注的重要议题。儿童的身心正处于逐渐成熟的过渡期,自我认知尚未完全形成,抵御危机的能力原本就弱,又因为农村留守儿童其自身的特殊性,更容易遭受心理创伤,故本研究以修复农村留守儿童的心理创伤为立足点,探究儿童心理创伤的成因与来源,采用文献法、访谈法、量表法收集资料,分析心理创伤服务对象小Z面临的心理困境,与心理创伤服务对象小
学位
聚类作为最重要的无监督方法之一,长期以来一直是模式识别和机器学习中的一项关键技术,它根据特定标准对数据样本进行分组,从而使同一组内的样本的相似性尽可能大,同时不在同一个组中的样本的差异性也尽可能大。随着互联网和通信技术的快速发展,真实世界的大多数数据都是从不同的来源生成,或者由各种特征采集器描述,这种数据被称为多视图数据。由于在划分无标签的多视图数据上具备优势,多视图聚类吸引了越来越多的关注。然而
学位
伴随着我国城市化和老龄化进程的加快,2022年开始我国老年人口正式进入高速增长时期,越来越多的老年人随着儿女移居到新的城市新的社区,在此背景下衍生出新的社会群体“老漂族”。“老漂族”随儿女离开原有的生活环境,由于年龄、认知、身体、心理等诸多原因,在融入新生活的过程中面临许多困境。社区是“老漂族”融入新环境的第一站,社会工作者通过帮助“老漂族”进行社区融入,使他们在社会角色和生活环境变化时期,自身也
学位
随着计算机技术的高速发展,大数据分析和各行各业密切结合到一起,庞大的信息资源不仅给我们的社会与生活带来诸多的便利,也带来了如何集成以及高效使用这些数据的问题。档案领域是受到信息化发展影响比较深远的行业,随着科学技术的进步,传统档案管理模式已经不能满足档案用户利用的需求。如何进行档案信息资源的整合和资源共享,并向档案使用者提供智能化、个性化的档案知识服务,从而提高用户使用档案的体验,已经成为档案信息
学位
人口老龄化趋势日益严峻,养老问题是每个家庭所关心的“家事。受到不断加快的人口老龄化进程的影响,我国的家庭结构发生了根本性的改变,家庭规模持续小型化、传统的家庭照料功能不断减弱,加之现如今物质生活水平的提高,人均预期寿命得到了延长,老年人在日常照料、医疗救助和精神关怀等方面的需求不断增长。目前我国现存三种养老方式:居家养老、社区养老和机构养老。家庭养老是老人子女为老人提供生活上的服务,但是随着家庭养
学位
文本相似性度量用来表示文本的语义相似度大小。近年来科学论文数量剧增,科学论文具有很强的针对性、严谨性、段落长、高度程序化等特性,语句结构复杂严谨,包含了丰富的领域知识,专业性极强。论文的摘要部分凝结了主要研究的方法理论、技术、研究过程等信息内容,能表达科学论文主要的研究内容信息,为研究人员高效地、快速地获取有用的内容提供方向。本文以科学论文的摘要为对象,进行文本相似度计算研究。本文以新冠领域科学论
学位
随着社会的不断发展,人们的思想在发生转变,在刑罚领域,人道主义的呼声日渐高涨。人类刑罚制度经历了报复刑、威慑刑再过渡到教育刑的时期,体现出刑罚制度的人性化。在这过程中,社区矫正这一在欧美国家兴起与发展的制度在中国也逐渐发展起来。广西壮族自治区近年来深入推进社区矫正机制改革,建成社区矫正中心并且挂牌成立社区矫正教育基地,通过政府购买社会服务的方式引进了一大批专业化、职业化的社会工作者,专门负责对接社
学位