分词不一致不同成因的自动识别研究

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:qqq1981115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、引言
  
  一个高质量、大规模的分词语料库是中文信息处理的根基。目前机器自动分词的正确率已达到97%左右,但由于校对者受语境干扰和自身语感的差异,时常会出现一个字串的意义、功能都是确定的但给出了不同的切分形式的情况,我们称之为分词变异。由于意义、功能是否确定在分词层面机器难以判断,因此分词变异的外在表现和组合型歧义相同,同时,在一些专名和非专名串之间也存在着类似的问题。多种成因共同导致了复杂的分词不一致现象:一个相同的字串(不考虑它的意义、功能)在语料库中存在着不同的切分形式。
  孙茂松(1999)认为:衡量一个语料库质量的重要标准之一是分词后的语料库是否具有比较高的一致性。因此,建设一个高质量的语料库,分词不一致的处理是一个无法回避的问题,而处理的前提和关键就是识别出分词不一致的不同成因。
  本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串。既解决了单一使用特征词法召回率过低和单一使用规则法容易忽视小规则的问题,也克服了原先方法前期需要投入大量人力进行人工校对和规则总结的缺陷。
  我们从1998年1月《人民日报》200万字的语料库中抽取到40 926个分词不一致字串,将字串相同的归为1组,共1797组。从中抽样10131条473组做人工识别,其中5065条230组作为训练集,其余5066条243组作为测试集。
  
  二、分词不一致现象分析
  
  (一)成因分析
  分词不一致现象的成因主要归为以下三类,在识别时分别标注对应的字母:
  (A)分词变异。比如:
  四/m个/q大字/n“/w福如东海/i”/w
  恭贺/v新春/t”/w的/u金色/n大/a字/n分外/d醒目/a。/w
  (B)组合型歧义。比如:
  多方/d筹集/v资金/n6亿/m元/q,/w
  运/v来/v山基土/n5600/m多/m方/q,/w
  (C)专名和非专名串。比如:
  《/w电力/n报/n》/w记者/n张/nr大和/nr
  密度/n之/u大/a和/c持续/vn时间/n之/u长/Ng,/w
  (二)组合情况分析
  每一组的情况并不一定是单纯的,会有A、B、C三类组合出现的可能。常见的组合有一合对多分和一分对多合两种,前者比如:
  等到/v波罗的海/ns三/m国/n加入/v北约/j(1)
  因为/c 等/v到/v片子/n剪/v出来/v,/w(2)
  事故/n证明/n及/c医院/n证明/n 等/u到/v保险/n公司/n(3)
  其中,(1)和(2)的关系是A类,而(1)和(3)的关系是B类。
  后者比如:
  屋子/n分/v东/f西/f两/m 个/q 厢房/n(4)
  广场/n东西/f两侧/f百/m米/q灯/n廊/Ng(5)
  武侠小说/n本身/r是/v娱乐性/n的/u东西/n(6)
  其中,(4)和(5)的关系是A类,而(4)和(6)的关系是B类。
  
  三、识别算法设计
  
  算法流程如下:
  1.抽取语料库中所有分词不一致的字串、词性标记和上下文等信息;
  2.前期处理全部C类;
  3.第1遍识别,使用特征词法标记部分A类,并让机器从中学习规则;
  4.第2遍识别,使用学习到的规则加上人工辅助规则标记剩下的A类和B类。
  (一)分词不一致字串的抽取
  表1中列出了每一个分词不一致字串抽取的信息,其中上下文的观察窗口设为5。
  


  (二)前期处理
  前期主要将有明显特征的C类先行识别出来。由C类引起的分词不一致可以从词性标记判定,专名包括人名(nr)、地名(ns)、机构团体名(nt)、其他专名(nz)四种。剔除专名后,如果该组不再存在不一致现象,则不对该组再做处理;否则该组中剩下的不一致字串进入下一环节识别。
  (三)特征词法
  前期处理后,关键将集中在识别A类和B类。我们首先使用特征词法标注一部分。
  A类分、合两种形式由于意义、功能是确定的,因此语境中可能会存在着相同的特征词,而B类这种可能性将远小于A类。
  首先,一组中以Keytags的不同分类,一般情况分为分(wordnum>1)、合(wordnum=1)两类,但也有两类以上的,比如keystr=大地的组就有三类:/a;/a/u;/a/d。
  然后,抽取每一类中所有不一致字串的上下文特征词构成一张左、右特征词表。特征词是由leftwords和rightwords去掉一些没有明显识别作用的词类(比如标点、连词)和词(比如“是”)组成。为避免对于高频特征词的过低估计,规定一个词出现几次就在特征词表中登记几次。
  接着,将不同分类两两组合,计算它们之间特征词共现率,公式为:
  


  其中,tableleft1 和tableright1分别是组合中特征词数较多的表,M(table1,table2)函数对table1中的每个词考察其是否在table2中出现,如出现则计数加1,N(table)函数计算table的特征词数。
  最后,我们还需要从训练集中提取阈值去判断组合内是否具有同一性。其中有两种情况:1.wordnum1≠wordnum2,则超过阈值可初步识别该组合为A类;2.wordnum1=wordnum2,则超过阈值可将该组合合为一类处理。尽管两种情况结果不同,但判断同一性这点是相同的,因此只需一个阈值就够了。我们使用出现频率较高的情况1作为阈值提取的依据。
  表2中统计了不同阈值和A类的识别正确率、成功识别组合数之间的关系。
  


  在第1遍识别时,我们希望得到较高的正确率。从表2中可以初步将阈值确定在0.03-0.04之间,经过进一步计算,当阈值为0.032时,正确率达到最高为91.67%。对于情况2也使用0.032作为阈值。
  (四)规则学习
  使用特征词法的目的除了识别出部分A类以外,更重要的是我们希望将特征词法的识别结果提供给机器以学习到A类规则库。在第(三)节中我们希望得到最理想的正确率,但对于机器学习来说,由于后期还有规则频率阈值的约束,就并不需要那么高的正确率,而希望机器能多学习到一些规则备用。因此,我们将阈值从0.032降低到0.02作为规则提取的阈值,以放弃部分正确率的代价换来成功识别组合数的增加。
  机器在对40926个分词不一致字串进行第1遍识别后共学习到不同规则186条,舍弃低频规则,将出现频率3次以上的44条规则放入A类规则库。表3中列出了出现频率最高的5条规则。这些高频规则与孙茂松(1999)所总结的导致分词不一致的主要结构类型是吻合的。
  


  (五)人工辅助规则
  为解决一些具有一定规律性和普遍性但规则复杂机器难以学习的情况,我们添加了3条人工辅助规则与第(四)节的规则库配合使用。
  人工规则1:如果分、合两类情况中出现一类所有不一致字串的前邻接词与词性高度一致(对数词只要求词性一致,不考虑标点和助词等特征性不强的词类),而另一类中所有字串的前邻接词不含有该词,则将这种对类内具有高度相似性对类外具有严格排他性的组合认定为B类。在实际操作中,我们将高度一致的标准设置为:频率<10的类相似度=100%;频率≥10的类相似度>90%,这样可以有效避免高频类中由于极个别字串分词错误造成的干扰。
  人工规则2:如果合时keytags为/i或/l,或分时keytags前含/h或后含/k,则认定该组合属于A类。孙茂松(1999)、苗玺(2006)均将成语、习用语、前后词缀作为构成A类的常见结构。这类词合时词性标记单一但分时由于本身结构复杂造成词性多样,机器难以学习到强势规则而造成漏检。
  人工规则3:对分时wordnum全部大于2的组标为A类。尽管这种多词不一致串在人工内省造句时仍然可能是B类,但数目极少,我们可以直接识别为A类。
  (六)规则库识别
  进行第2遍识别,将一组中按Keytags的不同分类,对wordnum不同的类两两组合。首先使用3条人工辅助规则对每个组合进行判断,如果符合则完成识别,否则如果该组合在第1遍识别时未能标识,则从A类规则库中寻找匹配的规则,如果找到则标识为A类,否则标识为B类。
  
  四、实验结果
  
  我们使用此算法标注了抽取出的全部40926个分词不一致字串,将训练集中5065条230组人工标注结果与机器标注进行比对,一组中标识全部正确的算作正确,封闭测试正确率为85.22%,对于A类,正确率86.21%,召回率88.65%;对测试集的5066条243组进行同样的比对,开放测试正确率为83.13%,对于A类,正确率86.62%,召回率86.08%。
  
  五、结语
  
  如何提高识别的正确率是我们进一步研究的重点,我们觉得主要有这几方面的工作要做:(1)深入观察语料,挖掘分词不一致现象不同成因之间的深层规律,拓展目前特征词加规则库的模式;(2)让机器在自动学习规则的基础上能归纳、合并规则,同时增加规则的要素约束规则失效;(3)抵抗语料库自身错误等干扰因素带来的影响。
  
  参考文献:
  [1]孙茂松. 谈谈汉语分词语料库的一致性问题[J]. 语言文字应用,1999,(2):88-91.
  [2]杜永萍 郑家恒. 分词及词性标注一致性校对系统的设计与实现[J]. 电脑开发与应用,2001,(10):16-18.
  [3]刘江 郑家恒 张虎. 中文文本语料库分词一致性检验技术的初探[J]. 计算机应用研究,2005,(9):52-54.
  [4]苗 玺 郑家恒.中文语料库分词不一致的分类处理研究[J]. 山西大学学报,2006,(1):22-25.
   (卢俊之, 南京师范大学文学院)
其他文献
本文前半部根据简单的关系逻辑讨论学科史上的两种传递模式,进而探讨修辞学研究如何介入并影响到比较文学研究。第一种是法国比较文学家保罗.梵地根的跨国传递模式;第二种是
“咬文嚼字”是指导学生学习文章时,对一些关键词语反复咀嚼、推敲、体味。通过对这些词语的理解,达到把握课文主旨的目的。“旁征博引”指在理解课文字面意思的基础上,通过联想,查阅一些相关的资料,联系生活实际由课内向课外延伸,从而进一步加深对课文的理解。学生学习一篇课文,这两种方法都很重要,既要“咬文嚼字”准确地把握字意、词意、文意,还要善于“旁征博引”不断地积累、充实、提高自己。下面笔者结合教学实践谈谈
[摘要} 新词的不断出现是社会发展的一面镜子,在各种各样的新词中,旧词新义这种“旧瓶装新酒”的现象占有一定比例,在旧词新义产生的过程中,无论从新义与旧义之间的关系来看,还是从旧词的跨域使用来看,隐喻思维都起到了重要的作用。  [关键词] 旧词 新义 相似 隐喻    20世纪90年代以来,我国社会发生了巨大的变化,这些变化推动了语言的发展,促进了新词的大量产生,其中有很大一部分是依附于语言中的固有
摘要: 通过文言文 “两略”现象的成因、表现、影响和应对的分析,指出文言文的“两略”现象应在文言文阅读,尤其是在文言文教学中予以突出和强调。  关键词: 文言文“两略” 成因 表现 影响 应对    文言文的“两略”,指文言文具有简略和省略两方面的特点,文言文的“两略”既可能是文意的,也可能是语法的。  现代汉语时代,文言文陷入难读、难教困境,“一怕文言文,二怕写作文,三怕周树人”成为中小学语文教
7月11日,中国印刷业对外加工贸易发展新闻发布会于2013上海国际印刷周同期举行。会上,国家新闻出版广电总局印刷发行管理司副司长徐胜帝发布了《中国印刷业对外加工贸易发展报
一、引言    朱骏声的《说文通训定声》与前人研究的不同之处在于该书完全打破许慎《说文解字》“分别部居,据形系联”的体例,创造了“以声为经,以形为纬”的编排体例。就同源词研究来说,这是一本便利的工具书。  拟考察《丰部第一》中的内容,来看其对同源词研究的贡献。    二、正文    《说文通训定声》由三部分构成,即说文、通训、定声。对同源词研究来讲,它的编排体例、说文和通训部分具有重要的价值。  
语言是一种“约定”,也是一种“俗成”,每个民族都在共同生活的过程中形成自己的语言。它与一个民族特有风土人情、生活习俗密切相关。中国人一见面常问声“吃饭了”,起初,因为吃
语言文字有其自身的发展规律,但它又是专为满足人类社会交际需要而产生、发展起来的,因此任何一个独立统一的主权国家都得根据其自身规律和社会发展需要,不断对其进行规范,促进其
吉羊踏歌去,灵猴起舞来,值此辞旧迎新之际,我谨代表世界中医药学会联合会(以下简称"世界中联"),向世界中联65个国家和地区的246个会员团体以及96个专业委员会致以诚挚的问候,向关
一、引言    近年来,在书面语和人们的日常言语交际中, “雅”字的使用频率越来越高,比如化妆品的名字:妮维雅、蔻雅、欧莱雅、雅倩、雅芳、雅嘉、雅姿、雅顿、雅诗兰黛等等。虽然这些名字中有音译和意译的,但却都不约而同地选用了“雅”字。本文就现今日常生活中普遍使用“雅”字的现象,分析其产生的原因。    二、“雅”之高频使用的原因    (一)语音方面  语音是语言的物质外壳, 汉语也不例外。那么,语