【摘 要】
:
近年来,伴随着互联网行业的高速发展,各行业与网络的关系也日益密切。虽然文本可以承载各领域中的数据信息,但是随着信息的指数型增长,垃圾信息的泛滥、信息重叠等问题日益严
论文部分内容阅读
近年来,伴随着互联网行业的高速发展,各行业与网络的关系也日益密切。虽然文本可以承载各领域中的数据信息,但是随着信息的指数型增长,垃圾信息的泛滥、信息重叠等问题日益严重。如何有效地从海量的文本信息中提取出有价值的信息,已经成为如今各行业在信息处理方面亟待解决的首要问题。自然语言处理(Neural Language Processing,NLP)是一种以理论为主要表达方式的计算技术,用于对人类语言进行提取、分析和表示,以达到人机无障碍交流的最终目标。序列标注作为自然语言处理领域研究的一个子问题,其标注的准确率严重影响到顶层任务的性能,如问答系统、机器翻译等等。所以,国内外的学者对序列标注问题做了众多研究,从传统的机器学习方法,到基于深度学习的神经网络,直到近期,研究者们相继提出了各种预训练模型,序列标注的准确率在不断的提升。本文研究的是序列标注问题下的语块分析任务以及命名实体识别任务,在传统的深度学习长短期记忆网络以及机器学习条件随机场框架之下,将其改进并提出了堆叠式双向长短期记忆网络(Stack Bi-LSTM)和新式半马尔科夫条件随机场(NSCRF)应用到序列标注任务中去。论文中分别在Co NLL-2000和Co NLL-2003官方数据集中进行训练和测试,经对比,在官方提交的论文数据中,我们提出的模型达到了很高的分值。随后,引入了谷歌2018年提出的BERT模型,采用剪枝的方法,对BERT模型进行简化,然后提出了BERT-Stack Bi-LSTM-NSCRF模型,将模型应用于宾州大学汉语树库(CTB)、CCKS2019 NER电子病历的数据集、Chinese GLUE的MSRANER数据集以及柏森发布的Boson NLP数据集中进行模型的训练及测试。经过与各任务的以往实验结果相比,我们的模型在各个数据集中都表现出良好的效果。由此可以看出,我们的模型在多语言、多领域的数据集中表现出了良好的鲁棒性。
其他文献
在人工对高层建筑的外墙施工中,悬挂式平台是保障作业安全有效实施的主要载具。在高层建筑施工中应用机器人技术有望提高工作效率和施工精度,改善安全性,但悬挂平台仍是目前
图像去噪是减少数字图像中噪声的过程,是影响图像分割,边缘检测,特征提取等对图像进行后续处理的重要前提。深度卷积神经网络在图像识别、语音处理等方面取得了重大成功,通过
微分方程在物理学、力学、生物学、工程学、经济学等众多领域有着广泛的应用.而微分方程的振动理论作为微分方程稳定性理论中的重要分支,近几十年来也得到了重要的发展,许多学者对微分方程振动理论进行了研究和探索,推广改进了一些结论,不仅具有重要的理论意义,而且也具有较高的实用价值.在本篇硕士论文中,我们运用Philos型积分平均,广义的Riccati变换和代数不等式理论等方法,研究了一类高阶时滞泛函微分方程
随着智能移动设备和移动互联网的高速发展,移动用户及移动应用程序数量正以前所未有的速度增长。为了满足人们的需求,这些新兴的应用往往能耗高、计算密集,而现有的移动设备
随着分布式计算、人工智能、云计算等技术的迅速发展,各类网络服务的应用使数据规模与信息体量呈现指数级增长,推荐系统及其相关技术逐渐成为处理“信息过载”的重要工具。推
背景:近年来随着国家经济的大力发展,所带来生活方式上的转变越来越大,人们不再一味地追求物质上的满足,转而更看重精神和身体上的健康。此时,基因检测技术,这个能够从人类最
偏好挖掘是数据挖掘中的重要研究内容,条件偏好网络(Conditional Preference Networks,CP-nets)作为条件偏好关系的重要表达模型,可用于描述用户的条件偏好关系。目前,其主要
热激蛋白(Heat shock protein,HSP)是一类广泛存在于生物体内的高度保守的应激蛋白,在生物的生长发育和逆境适应中扮演着十分重要的角色。目前,HSPs在动物中的研究居多,有关植
目的:通过选择性环氧化酶-2(C0X-2)抑制剂塞来昔布(西乐葆)联合表皮生长因子受体-酪氨酸激酶抑制剂(EGFR-TKI)厄洛替尼(特罗凯),研究对肺癌裸鼠移植瘤生长增殖的影响,并从分子水平探讨其机制。方法:C0X-2抑制剂联合EGFR-TKI作用于突变型肺腺癌HCC827细胞裸鼠移植瘤,观察各处理组荷瘤裸鼠的生长情况,并用免疫组化法测定增值、血管相关因子,探讨联合用药方式对肺癌生长增值、血管的
当下信息过载是互联网中普遍存在的一个问题,通过自动文本摘要技术能有效改善这个问题。但是,目前自动文本摘要的研究方向是基于单语的抽象文本摘要,这种方式存在一定的局限