基于改进的多层BLSTM的中文分词和标点符号预测

来源 :广东工业大学 | 被引量 : 2次 | 上传用户：pankerong

【摘要】

：

目前流行的中文分词方法是把分词当做序列标注问题,同样,标点符号预测也可以当作序列标注来处理。一些传统机器学习模型在序列标注问题上取得了不错的效果,如:隐马尔可夫模型

【作者】

：

李雅昆

【出处】

：

广东工业大学

【发表日期】

：

2018年01期

【关键词】

：

中文分词标点符号预测句边界检测序列标注 BLSTM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前流行的中文分词方法是把分词当做序列标注问题,同样,标点符号预测也可以当作序列标注来处理。一些传统机器学习模型在序列标注问题上取得了不错的效果,如:隐马尔可夫模型,条件随机场模型,支持矢量机模型,最大熵模型等。除此之外,深度学习的方法在序列标注任务以及其他自然语言处理任务中取得了比传统机器学习方法更好的效果。其中的RNN(Recurrent Neural Network,RNN)被广泛的应用于NLP(Natural Language Process,NLP)领域中的词性标注、机器翻译、实体命名等。因为LSTM(Long Short-term Memory,BLSTM)网络可以有效克服原始RNN中梯度消失的问题,因此在诸多NLP任务中得到了广泛的应用。关于LSTM单元组成的网络,原始的LSTM网络是单向结构,但是单向的LSTM网络只能检测到序列单侧的信息,为了克服这个缺点,双向LSTM网络出现了,同时为了能得到更加抽象的语义信息,有学者把多层的LSTM网络叠加起来,形成了多层LSTM的网络结构。现有的多层双向BLSTM网络结构是由正反两个方向的多层单向LSTM网络组成的,最后将两个网络的输出进行一次信息融合,融合之后的输出便包含了文本序列两个方向的信息。本文针对这种网络结构进行了研究,提出一种改进型的多层双向长短时记忆(Bidirectional Long Short-term Memory,BLSTM)网络,此网络每层的BLSTM都会进行一次信息融合,输出信息包含更丰富的上下文信息。同时找到一种联合任务方法可以并行执行中文分词和标点符号预测两项序列标注任务。对比原先的先执行中文分词再进行标点符号预测的级联方案,文本所述的方法可以极大的减少系统复杂度。此种方法可以用来处理不规范的社交网络数据,也可以应用在语音识别的后期处理中,并且此种处理方法和思想可以广泛的扩展应用在其他的NLP序列标注任务中。

其他文献

深居天一阁的古书修复师:李大东

<正>去年暑期,我到宁波天一阁博物馆学习古书修复月余。结束之时,与天一阁的资深古书修复大师——李大东老师的一番谈话,让我对古籍修复行业有了一些了解,也多了一分敬佩,更

期刊

古籍修复天一阁

信用卡融资让小微企业不再“等贷”

<正>小微企业是我国国民经济的重要组成部分,在促进经济增长、增加就业等方面发挥着不可替代的作用。但是,融资难问题一直是制约小微企业发展的瓶颈,使其经常处于漫长的"等贷

期刊

小微企业发卡机构

发表于《中华儿科杂志》的系统评价/Meta分析的报告质量和方法学质量评价

目的:评价《中华儿科杂志》发表系统评价/Meta分析(SR/MA)的报告质量和方法学质量。方法:检索发表在《中华儿科杂志》上的系统评价/Meta分析文献,共纳入13篇。提取纳入文献的

期刊

中华儿科杂志系统评价Meta分析PRISMAAMSTAR循证医学

陕西高校“丝路文化及跨文化交际能力”培养策略

2015年陕西高校发起与丝绸之路沿线各国共建"丝绸之路教育带",在此背景下陕西高校应将人才培养的重点放在提升学生的丝路文化和跨文化交际能力上来,通过完善政策导向和机制保

期刊

丝绸之路陕西高校学生丝路文化跨文化交际能力策略

氧化锌矿中基于碱焙烧法对ZnO的提取

硫化锌矿和氧化锌矿是锌矿的主要组成部分,现阶段冶炼锌的来源主要依靠硫化锌矿。本文研究一种新的氧化锌矿处理方法,经工业NaOH焙烧处理后,氧化锌矿物中的ZnO、PbO、SiO2与

期刊

氧化锌矿碱焙烧法提取

浅谈煤矿矿井水害类型及预防

分析了中国煤矿矿井水害成因、水害类型,简要指出了煤矿水害发生的前提条件和发生前兆现象,提出了中国当前煤矿水害的主要预防措施。

期刊

煤矿水害类型预防

北京朝阳首推“驿站式”养老服务模式

<正>自2014年起,朝阳区创新推行了"驿站式"养老模式,目前已建成社区(村)级养老服务中心(站)70个,可为附近社区老人按需制定特色居家养老服务项目,满足老人的各项生活需求。日

期刊

养老服务模式老年文体活动

战略物流成本管理模式应用研究

指出战略物流成本管理模式是一种基于战略成本管理的新型物流成本管理模式,并介绍了其特点及流程,包括物流战略定位及战略成本动因分析、战略物流成本预算执行和核算管理、战

期刊

物流成本管理战略成本管理战略成本动因分析物流预算管理

《中国文化常识》·《中国历史常识》·《中国地理常识》

<正>编制:国务院侨务办公室/国家汉办出版社:高等教育出版社/华语教学出版社/外语教学与研究出版社出版时间:2006年定价:193元/套注释语言:英语、德语、泰语、法语、日语、韩

会议

在语文教学中渗透德育教育

教师的责任是教书育人,在传授知识的同时,要交给学生做人的道理,塑造学生完美的性格,让学生逐步形成积极的人生态度和正确的价值观。语文教师的职责尤为重要,以教材为依托,教

期刊

语文教学德育渗透创设情境联系生活

基于改进的多层BLSTM的中文分词和标点符号预测

与本文相关的学术论文