基于改进的多层BLSTM的中文分词和标点符号预测

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:pankerong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前流行的中文分词方法是把分词当做序列标注问题,同样,标点符号预测也可以当作序列标注来处理。一些传统机器学习模型在序列标注问题上取得了不错的效果,如:隐马尔可夫模型,条件随机场模型,支持矢量机模型,最大熵模型等。除此之外,深度学习的方法在序列标注任务以及其他自然语言处理任务中取得了比传统机器学习方法更好的效果。其中的RNN(Recurrent Neural Network,RNN)被广泛的应用于NLP(Natural Language Process,NLP)领域中的词性标注、机器翻译、实体命名等。因为LSTM(Long Short-term Memory,BLSTM)网络可以有效克服原始RNN中梯度消失的问题,因此在诸多NLP任务中得到了广泛的应用。关于LSTM单元组成的网络,原始的LSTM网络是单向结构,但是单向的LSTM网络只能检测到序列单侧的信息,为了克服这个缺点,双向LSTM网络出现了,同时为了能得到更加抽象的语义信息,有学者把多层的LSTM网络叠加起来,形成了多层LSTM的网络结构。现有的多层双向BLSTM网络结构是由正反两个方向的多层单向LSTM网络组成的,最后将两个网络的输出进行一次信息融合,融合之后的输出便包含了文本序列两个方向的信息。本文针对这种网络结构进行了研究,提出一种改进型的多层双向长短时记忆(Bidirectional Long Short-term Memory,BLSTM)网络,此网络每层的BLSTM都会进行一次信息融合,输出信息包含更丰富的上下文信息。同时找到一种联合任务方法可以并行执行中文分词和标点符号预测两项序列标注任务。对比原先的先执行中文分词再进行标点符号预测的级联方案,文本所述的方法可以极大的减少系统复杂度。此种方法可以用来处理不规范的社交网络数据,也可以应用在语音识别的后期处理中,并且此种处理方法和思想可以广泛的扩展应用在其他的NLP序列标注任务中。
其他文献
<正>去年暑期,我到宁波天一阁博物馆学习古书修复月余。结束之时,与天一阁的资深古书修复大师——李大东老师的一番谈话,让我对古籍修复行业有了一些了解,也多了一分敬佩,更
<正>小微企业是我国国民经济的重要组成部分,在促进经济增长、增加就业等方面发挥着不可替代的作用。但是,融资难问题一直是制约小微企业发展的瓶颈,使其经常处于漫长的"等贷
目的:评价《中华儿科杂志》发表系统评价/Meta分析(SR/MA)的报告质量和方法学质量。方法:检索发表在《中华儿科杂志》上的系统评价/Meta分析文献,共纳入13篇。提取纳入文献的
2015年陕西高校发起与丝绸之路沿线各国共建"丝绸之路教育带",在此背景下陕西高校应将人才培养的重点放在提升学生的丝路文化和跨文化交际能力上来,通过完善政策导向和机制保
硫化锌矿和氧化锌矿是锌矿的主要组成部分,现阶段冶炼锌的来源主要依靠硫化锌矿。本文研究一种新的氧化锌矿处理方法,经工业NaOH焙烧处理后,氧化锌矿物中的ZnO、PbO、SiO2与
分析了中国煤矿矿井水害成因、水害类型,简要指出了煤矿水害发生的前提条件和发生前兆现象,提出了中国当前煤矿水害的主要预防措施。
<正>自2014年起,朝阳区创新推行了"驿站式"养老模式,目前已建成社区(村)级养老服务中心(站)70个,可为附近社区老人按需制定特色居家养老服务项目,满足老人的各项生活需求。日
指出战略物流成本管理模式是一种基于战略成本管理的新型物流成本管理模式,并介绍了其特点及流程,包括物流战略定位及战略成本动因分析、战略物流成本预算执行和核算管理、战
<正>编制:国务院侨务办公室/国家汉办出版社:高等教育出版社/华语教学出版社/外语教学与研究出版社出版时间:2006年定价:193元/套注释语言:英语、德语、泰语、法语、日语、韩
会议
教师的责任是教书育人,在传授知识的同时,要交给学生做人的道理,塑造学生完美的性格,让学生逐步形成积极的人生态度和正确的价值观。语文教师的职责尤为重要,以教材为依托,教