基于BERT模型的专业领域新词发现和无监督分词技术应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:maoduoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语言学的定义里,新词是指一个最近铸造的发明词或者词组,可能来源于新事物的产生、方言的吸收、简略词汇、外来语等。当今互联网时代下,大量的中文新词会在不同背景的碰撞下产生并借助网络的力量迅速传播开来。由于中文里没有明显的界限符,所以在英文中不存在的分词问题在中文里却是很重要的一步。未登录词是影响分词准确率的重要因素,新的未登录词及其变体层出不穷,依靠人力去构建词库费时费力,因而使用某些方法让计算机自动从文本中挖掘出新词成为一项重要的课题。BERT是2018年Google提出的深度双向语言表示模型,以Transformer的编码器部分作为模型的主体,提出了遮挡语言模型(Mask Language Model)和下一句预测(Next Sentence Prediction)两种预训练任务,在机器翻译、情感分析等16项自然语言处理任务上取得了最佳实验结果。BERT将文本序列作为输入,模型根据整条文本的信息计算得到每一个单词的上下文表示,对于一词多义的词语,BERT模型能够做到对多语义的理解。BERT的一般用法是加载其预训练权重,再接小部分新层,然后在下游任务上进行微调,其用法一般都是有监督的。中文分词是自然语言处理在中文上的特有的任务,如果能将BERT模型以无监督学习的方式同时引入到专业领域的新词发现和中文分词任务中,这将有助于对专业领域词库构建的研究、对BERT模型的可解释性研究、对中文分词的研究。针对上述问题,本文首先详细介绍了BERT模型的结构和各个组成部分,说明了模型是如何通过自注意力机制来做到基于上下文的编码表示。这一部分还介绍了遮挡语言模型的具体操作过程,并对比了它和一般语言模型,证明了用这种方式预训练出的BERT模型的优越性。其次,介绍了扰动遮挡的原理,推导了如何人为的给句子加入遮挡并利用遮挡语言模型来计算句子中每两个字之间的依赖性矩阵。曾有学者在研究中指出了借用扰动遮挡的思路来做分词的可能性,本文则系统地研究了利用依赖性矩阵进行分词的可行性,并更进一步提出了一套新的半全局的、能够利用矩阵更多信息的中文分词算法。然后在此基础上加入了专业领域知识注入模块、分词结果后处理模块,形成了一套系统的中文分词算法。由于分词算法并不需要词库,因此我们可以利用它执行新词发现任务,统计分词的结果并与标准词库作差集得到候选新词集合,最后基于规则和人工干预进行过滤,从而实现新词发现的功能。本文提出的新词发现算法在手动标注的语料中有较好的表现,实验测试也发现将新词发现的结果扩充词库可以优化基于词库的分词算法效果。
其他文献
随着社会经济与城市化的快速发展,建设用地的扩张,生态环境问题日益突出,土地利用方式以及生态环境问题已成为制约城市化与社会经济发展的关键问题,虽然制定一系列限制土地利用方式改变、退耕还林,耕地占补平衡等维护生态环境的措施,但当下土地利用与生态环境协调性不足。在城市化的过程中,不仅要考虑社会经济效益,更要兼顾资源节约型和环境友好型“两型”社会建设理念,实现绿色生态城市建设,在国土空间规划的大背景下,“
学位
由于全球经济形势和信息/电信技术的发展,全球工作、虚拟工作和自我管理团队的出现大大增加了专业工作的复杂性和灵活性。考虑到现代工作的复杂性,自上而下的工作(重新)设计越来越困难,组织更倾向于个体自下而上的工作(重新)设计,鼓励员工发展和主导他们的工作活动。重塑作为一种积极主动的行为方式,能够帮助个体更加高效工作,幸福生活,以应对这个压力日增的社会中可能出现的各种问题。那么重塑的效果到底如何,这一效应
学位
基于TIA15.1中的S7-PLCSIM功能,结合生活中常见的十字路口交通灯现场控制需求,设计了使用MCGS触摸屏和西门子S7-1200组合的工控系统。考虑了工控系统开发前期无实物PLC和触摸屏的场景问题,利用NetToPLCsim搭建起S7-PLCSIM与MCGS的虚拟仿真架构。调试结果显示,该方法稳定可靠,能够为S7-1200PLC与MCGS触摸屏早期联合开发项目提供高效的虚拟仿真技术支持,更
期刊
机器自动解答初等数学算术题具有非常大的挑战性,主要是人类理解数学问题的思维与机器可理解的逻辑表示之间存在很大的语义差距。尽管20世纪60年代就开始了机器解答算术题方面的研究,但其研究结果和人们的预期期望还是存在着很大的差距。以往的研究方法需要过多的人为规则和人工干预,并且应用场景单一,往往只能解决研究者预先设定好的场景下的算术题。近年来,基于深度学习的数学算术题机器解答的研究,又重新获得了很大的发
学位
初中阶段作为毕生发展的一个关键阶段,承担着个体由童年期逐步向成年期发展的过渡作用,青少年期的初中生在生理及认知发展和社会性等方面都会产生巨大的变化。环境和社会适应的好坏会对包括同伴关系、学业成绩、自我认同等在内的整个青少年期的生活与学习产生影响,处理人际关系等社会问题的能力对个体而言显得尤为重要。社会创造性是在社会领域表现出的创造性,体现在个体的日常社会活动和人际交往中,其重要性不言而喻。因此,本
学位
机关事务管理工作高质量推进是我们国家当前焦点工作之一,稳步推进机关事务管理法治化是治理模式迎合新时代、促进机关高效发展的新要求。依法行政有效深化、加快法治政府建设也能从机关事务管理法治化进程中集中体现,机关事务管理法治化是稳步推进依法治国具有实践意义的重要举措。2020年底,中共中央发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》与《法治中国建设规划(2020—2
学位
在金融市场定价理论中,资本资产定价模型(CAPM)一直都是起主导作用的资产价格文献。风险与预期收益之间的权衡一直都是金融学中最受关注的问题,近几十年来,左尾风险是否在确定预期回报的横截面方面发挥特殊作用的问题也一直受到金融经济学家的关注。风险规避的投资者要求以更高的预期回报的形式获得更高的报酬,以持有风险更高的金融证券。转换到左尾风险框架,在对预期收益相关高阶矩变量分布不了解的情况下,具有较高左尾
学位
近年来,中国地方政府债务迅速增长,政府债务在补缺口、强基建和促发展等方面发挥了积极的作用,但由于规模增长快,债务风险不断累积,且越来越突出,已成为我国经济可能的“灰犀牛”。与此同时,地方政府债务扩张所产生的巨额资金需求可能会通过金融市场的传导影响公司部门的融资需求。全社会的资金资源在整体上是有限的,当地方政府的融资需求大幅上升以及地方政府的信用较好,银行会偏向选择地方政府,一定程度上挤占原本属于公
学位
代谢组学是生物流体或组织中低分子量代谢物动态变化的量度。代谢组学研究的基本策略为基于高通量分析技术量测的高维数据的获得和基于化学计量学方法的代谢组学数据解析。此类数据通常具有小样本、高维、高噪和易含奇异样本的特性。化学计量学在代谢组学数据解析中的两项主要任务为识别各组之间的代谢差异(即模式识别)并筛选出表征各组之间代谢差异的潜在的重要生物标志物(即变量选择)。近年来,分析技术平台的不断发展导致生成
学位
在金融市场中,波动率不仅是衡量风险的指标,它对衍生品定价和资产配置都至关重要,因而对于波动率的研究一直是金融研究领域当中的较为热门话题。在对波动率的研究上,一些学者采用了文本情感分析的方法,通过词频统计模型探究与波动率的关系。然而,词频统计模型因其无法联系上下语义的局限性,语义捕捉能力较差,降低对波动率的解释效力。此外,而在对波动率预测的研究上,之前的研究集中在对低频收益率数据拟合而成的GARCH
学位