基于注意力机制深度学习模型的中文分词算法研究

来源 :深圳大学 | 被引量 : 2次 | 上传用户:xyxyxyxyxy999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词问题的研究能够为其他中文处理问题提供更准确的特征。诸如:文本分类,信息检索,问答系统,机器翻译,机器阅读等研究问题都非常依赖中文分词。在应用方面,搜索引擎,舆情分析,翻译系统,智能问答系统等,也需要更好的中文分词来达到更好的效果。而且,随着中文文本数据的急剧增长,这些应用都面临着更多的挑战。在中文文本的特征工程中,中文的词是非常重要的特征之一,虽然中文字符也可以作为特征,但是相对而言语言中的词特征是更加独立和完整的特征。不同于西方语言之间有空格来分隔句子的单词,中文和部分其他东方语言并没有空格来区分词。所以作为中文文本处理的基础环节,中文分词受到了国内外学者长久的研究,采用了众多的模型和方法来解决中文分词问题,发表了诸多的论文和著作,比如最近的研究将循环神经网络和条件随机场模型结合起来,在中文分词问题上取得了准确度提升。但是,在中文分词的研究工作和实际运用中,依然存在一些问题。第一,随着文本数据的急剧增长,新的词汇不断地诞生,以往的方法在处理未登录词方面效果都还有改进空间。第二,随着深度学习技术的发展,文本的表示出现了新的形式,例如用词向量和字符向量的形式来表示文本;语义抽取有了新的方法,例如双向循环神经网络等方法,能够更好地提取语义信息。第三,以往的方法都非常依赖标注数据,但是这些数据又是非常有限的,对于其他类型的数据没有充分的利用,来提升模型的效果。本研究针对中文上下文语义抽取,提出了基于注意力机制、条件随机场和扩展词典的深度学习模型BERT-CRF-Dict,其中注意力机制用于提取输入文本序列的上下文信息,条件随机场用于提取输出标签序列的上下文信息,外部词典用于扩展训练数据以补充训练数据中没有出现的词。实验结果表明,该模型在中文分词常用基准数据集人民日报中的准确率得到了明显的提升。本研究将针对标注数据集有限和模型过拟合的问题,提出了基于多任务学习的深度学习模型ML-BERT,增加的任务是和中文分词任务相关的命名实体识别任务。该模型能够通过增加其他的任务来扩充模型的训练数据,降低模型的过拟合,从而提升中文分词模型的性能。
其他文献
近年来柔性电子已经逐渐进入公众视野并在生产与生活中发挥着重要作用,这得益于众多关于柔性导电材料的探究。然而在电子污染日趋严重的背景下,具有瞬时性的柔性电子则发挥了更安全环保的作用,它可以在完成特定功能和任务后可以简易无污染销毁,又称为瞬态电子。瞬态电子是解决电子污染问题的良好方法,但在目前研究中的瞬态电子也存在着销毁耗时间长,不易回收,资源浪费等缺点。镓基液态金属是一种在室温下处于液态的金属材料,
数字化和理解我们的物理世界是计算机图形学和计算机视觉的重要目标。在三维计算机动画领域,角色动画一直是学术界与工业界感兴趣的研究课题。随着动作捕获技术的发展,人们可以借助动作捕获系统记录人体的真实运动信息,并把动作过程复制到一个虚拟角色上,使得最终呈现的人物动画更具有真实感。但是当动作需求发生改变时就要重新捕获新的人物动作,这样做在时间与经济方面都会产生巨大的成本。因此为了降低成本需要利用动作编辑与
随着在线学习的兴起,泛知识平台如微信读书、喜马拉雅、得到、知乎等可以在线学习、看书、听课的平台也随之兴起。互联网用户对在线知识平台的选择度越来越大,在线知识平台希望可以增加更多的用户留存和主动使用。因此,在线知识平台相继设计了很多游戏化元素来刺激用户持续学习和使用平台。例如微信读书设计的读书小队,比较好的留住了用户。所以本文希望探究游戏化设计和用户期望满足以及用户留存意愿之间有什么样的相互关系。本
投资是公司理财的核心内容,投资活动的成败直接关系到公司的稳定发展乃至生存。近几年来,我国上市公司投资效率普遍不高,部分公司出现了过度投资现象。过度投资会导致公司经营效率下降,降低公司价值。由此,如何有效抑制过度投资行为,对于保障公司健康发展、提升公司价值至关重要。理论上,股票回购作为发放现金股利的替代方式,减少了公司自由现金流,能够抑制公司过度投资行为。我国上市公司股票回购能否有效抑制过度投资,管
由于我国资本市场起步晚、发展不完善,股价崩盘现象时常发生,它扰乱了资本市场的运行规律,影响了投资者对资本市场的信心,甚至可能会对实体经济的稳健发展造成一定影响。在这一背景下,关于股价崩盘风险影响因素方面的研究越来越受到国内学者的关注。内部控制作为现代公司治理体系中的一种重要机制,目前已被投资者以及资本市场广泛认可,上市公司披露的内部控制缺陷信息是评价内部控制质量的重要信息之一,近年来越来越受到我国
图片马赛克作为一种艺术形式,已经在如广告、家具装饰、娱乐等诸多领域被广泛应用。传统意义上的马赛克合成方法通常使用纯色色块或具有一定纹理特征的图块作为算法输入,而图片马赛克则是使用由数据集检索所得的图片集合合成马赛克结果。由于图片马赛克作品中存在目标图像主题内容与合成图块视觉内容两种图像信息,因此图片马赛克合成结果的优劣主要集中于两个方面,一方面是整体上对目标图片主题内容的表达,另一方面是局部尺度上
度量学习是文本分类算法的主要研究问题之一。通过学习一个距离度量函数,将样本间距离转化为相似度,对原始数据分布进行重构,将原始数据映射到一个容易划分的拓扑空间。使两个具有同样标签的样本在新的编码空间内距离更近,两个具有不同标签的样本在新的编码空间内距离更远,从而具有更优的分类性能。近年来,不同学者结合深度学习方法的研究发现深度度量学习网络的性能显著优于传统度量学习方法,其核心是构造用于度量学习的深度
在近期生成式对抗网络的研究中,基于生成式对抗网络的人脸图像翻译领域工作取得了令人印象深刻的进步。现有的方法通常是使用判别器与生成器进行对抗来生成更逼真的图片,再辅以一个分类器约束来促进不同域之间的图像翻译从而达到最终的目的。但是他们忽略了一个非常重要的问题——域分布的匹配问题,即生成图像的分布与真实图像的分布并不相同。为了解决这个问题,本文提出了一种开关式生成对抗网络,这个网络具有一个更适合于多域
社交网络平台是近十年来互联网用户最广泛应用的大型信息系统,已经成为海量用户交流与资讯获取的重要渠道。其中,大众社交网络平台(微博、领英、QQ等)很少从研究领域或研究兴趣的角度组织用户和传播信息,因此又逐渐衍生出专为科研人员提供专业学术资讯的科研社交网络平台。这些平台通过提供用户搜索服务帮助科研工作者寻找合作伙伴,并借助推荐系统解决信息过载和需求不明的问题。目前,科研合作者推荐领域重点关注特征的选择
颜色是数据可视化中最重要的视觉通道之一。为不同的可视化任务设计适当的配色,既能促进数据隐藏模式的发现,也可以带来视觉美感。特别是在类别型数据的可视化展示中,合适的配色能美观且清晰地传达每个数据类别之间的关系,用户可以根据颜色快速感知到类别信息。但即便对于专业设计师来说,为给定的类别型数据设计合适的颜色映射也是比较困难的。用户往往使用可视化设计软件提供的配色模板,或ColorBrewer等软件建议的