基于字的分布表征的汉语基本块识别

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:drally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。
其他文献
在datamine软件中,引入虚拟钻孔技术,修正三维地质体模型与实际模拟地质体之间的误差,介绍了三维地质数据模型的概念、三维地质数据库的建立和三维地质体建模的主要误差来源,修正
<正>《掌声》是小学语文苏教版第五册中的一篇课文。课文记叙了身患残疾而忧郁自卑的小英在掌声的鼓励下,鼓起生活的勇气变得乐观开朗的故事。作者把学会尊重、学会关心的主
伊斯兰是一种宗教 ,同时也是一种世界性的大文化。清真寺是穆斯林进行宗教活动的场所 ,而且是伊斯兰文化的载体。北京现有清真寺 68所 ,每一座清真寺都有着丰富的文化内涵。
<正>随着我国文化体制改革的进一步深入,特别是2003年12月国务院颁发了《文化体制改革试点中支持文化产业发展的规定》和《文化体制改革试点中经营性文化事业单位转制为企业
<正>纽约佩斯画廊PACE GALLERY,NEW YORK2013.01.18~2013.02.16汇集宋冬1990年代中期至今作品的个展"白做",占据了佩斯画廊位于曼哈顿西25街的三个空间中的两个。位于534号的
期刊
基于现金流管理的重要性分析现金流管理目标的相关理论,通过调查问卷验证了企业现金流管理的实际目标与理论目标的符合度,并发现企业竞争力与现金流管理目标有一定的内在联系
<正>为使职工尽快走上致富路,11月6日,二师二十一团党委制定出台了七项措施,促进今冬明春职工多元增收。一是加快结构调整促增收。按照加速、提质、转型的总体思路,到2015年
期刊
佛教从东晋十六国时传入北京地区,不断向广大的下层民众渗透,潜移默化地影响着他们的思维和生活方式。随着佛教与北京传统文化的不断融合,一些佛教的节日或纪念日,逐渐越出了
"胡同"是北方地区对小巷的通称,明张爵《京师五城坊巷衚衕集》写作"衚衕",清末简化成"胡同",直到现在。文革后期,曾有人提出"水井假说",认为元《析津志》中的衖通,是"衚衕"的
<正>幼儿自信心的培养包括家庭教养、幼儿园培养两个方面,本文仅就家庭培养幼儿自信心问题,包括幼儿自信心的重要性,父母的言传身教作用以及培养途径与方法等谈一些粗浅的认