带标注语料库的分词不一致研究综述

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:pearlpink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。
  关键词:分词不一致 语料库 综述
  
  词的正确切分是进行中文文本处理的必要条件,计算语言学中很多深层次的工作只有在自动分词的基础上才能完成,因此分词的准确性对后续的研究十分重要。自动分词技术经历了从分词规范到“规范+词表”的转变,取得了巨大的成绩。带标注语料库的出现弥补了规范和词表的很多不足,但犹如一把双刃剑,现阶段的带标注语料库由于标注质量等原因也严重影响着分词系统的结果和后续的研究工作。衡量分词语料库的标注质量有一条重要的标准就是分词的一致性,即同一个词或同一个结构在文本中是否保持了相同的切分形式。由于不同的人对词有不同认识,很多经过人工校对的语料还存在着大量的分词不一致问题,分词不一致现象在带标注语料库中广泛存在。很多学者致力于这一方面的研究,解决了一部分分词不一致的问题,本文在总结前人研究的基础上,提出了一些自己的看法。
  
  一、带标注语料库
  
  “带标注语料库”是经过人工标注或审定的文本,包括分词语料库、词性(pos)标注语料库、语块语料库和句法树库等等。这些带标注语料库常常用来作为各种分词系统训练和测试的材料,也同时作为测评各系统的标准。带标注语料库因其在汉语自动分词中的重要作用而被一些人称为“金本位”(Feixia,2000)。
  带标注语料库的出现使得很多人认为分词系统可以不再需要分词规范和词表,因为这些知识可以从训练集中获得。同时分词结果必须和测试集逐词进行比对,测试集成了测评参赛系统的标准答案。这就产生了两个问题:一是目前的带标注语料库是否能担此重任,二是有了带标注语料库我们是不是就可以放弃词表等资源的建设。
  黄昌宁(2005)在第一届的SIGHAN Bakeoff的PK(北京大学)和AS(台湾中央研究院)两个测试语料库中发现“测试集内”、训练和测试两个语料库之间有“一对多”(训练集中的一个词在测试集中被切碎)和“多对一”(测试集中的一个词在训练集中被切碎)的错误,使得这两个测试语料库的分词出错率分别达到了1.29%和2.26%,从而它们的baseline F值分别下降了1.36%和1.93%。这说明带标注语料库的分词质量严重影响着汉语的自动分词和分词测评,现阶段带标注语料库的质量还没有达到理想的水平。一方面我们要加强语料库的建设,提高带标注语料库的质量,使其真正符合“金本位”的称号;另一方面,词表等资源的建设不能放弃,这些资源不仅是自动分词的基础,在计算语言学乃至语言学的其他领域都有着及其重要的意义。
  
  二、分词不一致的研究现状综述
  
  分词的一致性一直是衡量带标注语料库质量的一个重要标准。目前,分词不一致的研究在计算语言学领域主要集中于两个方面,一是考察性研究,主要是从语言学的角度,讨论分词不一致产生的原因和导致分词不一致出现的结构类型,以及对语料库和后续工作会带来的影响;二是策略性研究,主要是利用规则或统计的算法,依靠程序识别和处理具体的分词不一致问题。
  (一)考察性研究
  孙茂松(1999)首先提出分词不一致的概念,将分词的一致性分为一致性1和一致性2。一致性1:在保持语义同一性的前提下,一个结构体在语料库中的分合是否始终一致(例如:“猪肉”是否始终保持一个整体,或者始终分开);一致性2:与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致(例如:“牛肉”与“猪肉”的结构类型完全相同,“牛肉”是否跟随了“猪肉”的分合状态)。“分词不一致”就是指不符合一致性1和一致性2的情况。孙茂松对汉语语料库THBY进行初步分析,总结导致分词语料库出现不一致的主要结构类型有定中结构、状中结构、动宾结构、动补结构、复杂概念名词、半凝固格式或习用语等其他几种,讨论了“语法词”与“心理词”的区别,指出分词语料库以切成“心理词”为宜。并进一步指出“心理词”的模糊性决定了严格意义的完全一致对分词语料库是不可能实现的,认为分词一致的目标应调整为受控条件下的一致性。
  黄昌宁(2005)提出了“切分变异”这个术语:“如果一个词在一个语料库中有不止一个切分形式就叫做一个变异,它的每一个切分形式叫做一个异例(instance),每个异例由一个或多个词(token)组成。”这里的“切分变异”和孙茂松的“一致性1”的概念是一致的。黄昌宁通过检查Bakeoff1的PK和AS两个测试语料库中测试集内、训练和测试两个语料库之间的“一对多”和“多对一”的切分变异,从而发现测试语料库的标注质量必然影响着分词系统的测评结果。因此他认为,用标注信息的出错率来定量地考察每个带标注语料库的标注质量,以确保其金本位的功能。
  杨尔弘等(2006)在2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测中,将该测试语料中具有两种切分形式的字串命名为“合分字段”。对于这些字段,测试的标准答案给出了两种选择,评测时,分词系统只要始终保持两者中的任一种切分即认为正确。他们将分合字段分为以下两个方面:
  第一,不发生歧义的普通词语合分字段。包括:A.含有前、后接成分的词语,如:“社会化”“损伤性”“同学们”;B.含有语素字的词语,如:“针 状”“统一 体”“污染 物”;C.由动词+动词或动词+介词构成动词的词语,如:“发 出”“意识 到”“放 在”;D.由副词或助词+中心词(动词或形容词)构成的词语,如:“意味 着”“不 好”“太 多”;E.由动词或名词+名词中心词构成的词语,如:“有 可能”“下 结论”“百科 全书”“巴西 人”;F.由代词+量词或名词构成的词语,如:“本 书”“每 天”“此 次”;G.名词+方位词构成的处所词,如:“坑 底”“路 上”“房 里”;H.数词,如:“第 二”“八 十”“百 分之 二 十 五”。
  第二,具有合分形式的专有名词,包括:A.人名+称呼,如:“奥尔森 先生”“张伯里 教授”;B.地名,如:“巴拿马 运河”“南沙 群岛”“香港 特区”;C.机构名,如:“俄罗斯 外交部”“中国 农业 大学”。
  对于“分合字段”,863采取的柔性化评测使服务于不同目的的标注系统可以进行公平的测试。但是863只考虑了字段个体的不一致问题,对于同种结构类型的“分合字段”却没有考虑,此外完全用词性来给分合字段分类缺乏合理性,人们的语感很难感觉到“下 结论”和“百科 全书”会有什么联系。
  董宇(2006)对1998年1月《人民日报》标注语料中具有多种切分形式的词进行了统计,发现1034个单纯的切分变异。在此基础上从不同层面分析切分变异的出现规律,得出大量的切分变异出现在低频词、二字词中,且随着使用频率的增加,变异的从合度逐渐趋向于1。同时从语义、语法结构和语用的角度将切分变异划分为13类,使得切分变异在语义、语法结构和切分形式上取得了类的一致性。
  (二)策略性研究
  杜永萍等(2001)将分词不一致现象分为三类:应分字串、应合字串、均正确字串,并针对这三类字串建立词性排歧规则库。该研究利用规则库中的特征词规则库和词性搭配规则库,以及计算机辅助人工校对的方法解决分词一致性和词性标注的一致性问题,不足之处在于规则库之外的分词不一致字段切分的正确与否需要人工来校对。
  刘江等(2005)以50万熟语料为基础,抽取其中的不一致字段,将不一致字段分为:由于歧义造成,由于前后缀的分合造成和由于相同结构在语料库中前后切分不一致造成三类。文章进行了详细的统计分析,并根据其切分结果形式的特点,运用基于支持向量机的方法进行分词一致性的校验,经封闭测试,一致性检验准确率达到75.6%。遗憾的是,该研究只是校对了歧义切分和词缀造成的不一致,最终没有讨论第三种即相同结构在语料库中的前后切分不一致的情况。
  苗玺等(2006)在对150万汉字熟语料的统计分析基础上,总结了导致语料库中分词结果不一致的主要结构类型,包括:错误切分导致的分词不一致、多义型歧义字段的切分结果导致的分词不一致以及相同语境下具有两种或多种切分形式的字串。对于第一类,文章只考虑了地名的情况;第二类,采用枚举法建立多义型歧义字段词典,通过规则判断多义型歧义字串的切分是否正确;第三类,利用字串长度和词性标记,使部分相同结构的字串达到一致。虽然此研究对这三种类型的分词不一致的解决最终达到了100%、95.83%和85.53%的正确率,但是采用枚举法和简单依靠字串长度和词性来解决多义型歧义和多种切分形式字串不具有普适性。
  卢俊之(2006)提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串。既解决了单一使用特征词法召回率过低和单一使用规则法容易忽视小规则的问题,也克服了原先方法前期需要投入大量人力进行人工校对和规则总结的缺陷。对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22%和83.13%。
  
  三、研究误区与今后发展方向
  
  分词不一致的问题,前人已有不少研究,但是问题依然存在,如果不将这些问题弄清楚,我们很难再向前迈进一步。
  (一)相同的语言环境
  对相同的语言环境的认识上的差异造成了人们对分词不一致概念认识上的不同。“相同的语言环境”是指相同的语义环境或相同的上下文环境。如果某个字段在两个语言环境下表示的是相同的意思,我们可以认为这个字段所处的这两个语言环境是相同的。“相同的语境”是分词不一致概念提出的前提,组合型歧义各义项所处环境不同,语义也不同,这跟分词不一致有很大的差异。因此组合型歧义字段造成的多种切分形式不能称之为分词不一致。
  (二)分词不一致的界定
  最早给出分词不一致定义的是孙茂松(1999),但是此后很多研究没有采用这个定义,并且有的研究中的分词不一致包含的内容也不一样。“切分变异”和“分合字段”指的都是分词不一致,但侧重于个体的分词不一致,和孙茂松的“一致性1”差不多。但是有些研究者的分词不一致概念与分类比较混乱,严重影响了后续的研究,在这里我们有必要廓清分词不一致的概念,从而明确今后的研究方向。
  1.杜永萍、郑家恒(2001)将分词不一致分为三类:
  1)应分字串
  应分字串即应切分却被合并的字串,包括:
  A)在任何语境下切分是唯一正确结果,例如:“红鞋”。
  B)歧义切分错误字串。
  2)应合字串
  应合字串即应合并却被切分的字串,包括:
  A)在任何语境下合并是唯一正确结果,例如:“奥运会”。
  B)歧义切分错误字串。
  3)均正确字串
  切分结果有“分”有“合”,但均正确,包括:
  A)歧义切分正确字串。
  B)争议字串,例如:“古典音乐”。
  这样的分类方法让人感觉很混乱,而且在应分字串和应合字串中的唯一正确结果确实应该是唯一的,只是因为切分错误而造成差异,争议字串很明显是属于分词不一致的。
  2.刘江(2005)将分词不一致分成三个主要类别:
  1)由歧义造成的:包括由组合型歧义造成的分词不一致和由交集型歧义造成的分词不一致。
  2)由前后缀的分合造成的,例如:“老a/ 朋友n”和“老朋友/n”、“管理/v 者/k”和“管理者/n”。
  3)由相同结构在语料库中的前后切分不一致造成的。
  作者在文中提到的分词不一致是指同一字串在相同的语言环境下的切分结果不一致,很显然这样的分类与之是有出入的。由前后缀造成的分词不一致是分词不一致中的一个类别,不能概括整个分词不一致现象。第三个分类应该是相同结构类型下的分词不一致,但遗憾的是作者对于这一类没有详细地说明。
  3.苗玺、郑家恒(2006)也将分词不一致定义为三大类:
  1)错误切分导致的分词不一致,其分与合的形式中只有一个是正确的。
  2)多义型歧义字段的切分结果导致的分词不一致,不同的语境使得相同的字串具有分与合两种切分形式,且每种切分形式都是正确的。
  3)在相同语境中,相同的字串具有分与合两种或多种不同的切分形式,按照构词法或信息处理用分词加工规范等标准,应该统一该字串切分形式。
  这样的分类非常清晰,之后的研究者也有沿用此分类方法的。但是作者在这篇文章的开头曾指出:“语料库分词的一致性是指在相同的语境下对同一字串切分结果是相同的。”很明显,组合型歧义造成的不一致并不属于分词不一致的范畴。
  (三)研究方法
  由于分词不一致的概念比较混乱,因此目前大部分的研究主要致力于个体的分词不一致和组合型歧义的区分和处理。基本采取“分而治之”的方法,简单概括起来可以分为组合型歧义的消解和利用规则处理简单的分词不一致。可是,分词不一致不仅仅是几个类型更不可能只有前后缀加词根的形式,在处理方法上单靠字串长度和词性标记构建规则来解决分词不一致还是远远不够的。
  (四)相同结构的分词不一致应引起重视
  现阶段正在对同一个分词单位在语料中的分词不一致进行深入研究,但是很少有人讨论相同结构类型的分词不一致。从提高语料库质量的角度,统一相同结构类型的分词不一致具有更高的价值,是解决一致性问题的根本所在。
  分词的一致性可以定义为:在相同语境下,同一字段以及与该字段具有相同结构类型的所有字段在语料库中的切分应该始终一致。我们认为现阶段亟待解决的就是相同结构的不同分词单位的一致性(即孙茂松的一致性2)问题,简单的统一或者简单的分开都不合理,可以在统一的基础上采用弹性的分合政策。
  
  注释:
  ①组合型歧义应分字串,在语料中被错误合并,如:“领导/n
  将来/v 我/r 校/n 视察/v”中的“将来”应该切分成“将/v 来/v”。
  ②组合型歧义应合字串,在语料中被错误切分,如:“他/r
  很/d 有/v 绘画/vn 才/d 能/v”中的“才能”应该切成“才能/n”。
  
  参考文献:
  [1]Fei Xia,Martha Palmer et al.Developing Guidelines
  and Ensuring Consistency for Chinese Text Annotation[Z].In Proceedings of the 2nd International Conference on Language Resources and Evaluation,2000.
  [2]董宇,陈小荷.带标注语料库中切分变异的统计分析及思考[A].第三届学生计算语言学研讨会论文集[C].2006.
  [3]杜永萍,郑家恒.分词及词性标注一致性校对系统的设计与实现[J].电脑开发与应用,2001,(10).
  [4]黄昌宁,林娟等.自然语言理解与大规模内容计算[M].北京:清华大学出版社,2005.
  [5]苗玺,郑家恒.中文语料库分词不一致的分类处理研究[J].山西大学学报(自然科学版),2006,(1).
  [6]刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,(9).
  [7]卢俊之.基于机器学习的分词不一致自动识别研究[A].第三届学生计算语言学研讨会论文集[C].2006.
  [8]孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999,(2).
  [9]杨尔弘,方莹等.汉语自动分词和词性标注评测[J].中文信息学报,2006,(1).
  (董宇,金陵科技学院)
其他文献
用Galerkin方法证明了动力学膜壳方程解的存在性和惟一性.
给出一个推导Runge-Kutta公式的简单方法,这个方法也可以用于推导其它公式,如Gear方法等.
在电解锰废渣中掺入锰矿粉,以提高锰废渣品位,探讨锰废渣中锰的硫酸法浸取回收效果.用单因素实验考察了矿渣比、液固比、浸取pH值、浸取温度和浸取时间等因素对锰浸取率的影
对Schrōdinger形式理论的基本理论及近年来发展起来的相关理论进行了综述.随着对Schrōdinger形式理论认识的加深,这套理论从最初的对光束在实数折射率介质中的传输研究,推广到
关于同素异序词的问题,近年来不断有专家学者探讨。所涉及的有同素异序词的定义、成因、语法语义差异分析、专书的同素异序词研究等方面。关于同素异序词定义,本文比较赞同高惠
Web站点正在快速成为旅游业的重要营销环境.传统的基于2种模型的应用表现出许多弱点,比如应用开发与维护代价太高.多层体系结构有助于解决这些问题.在基于多层模型的应用中,
各盟行政公署、市人民政府,自治区各委、办、厅、局,各大企业、事业单位:现将《内蒙古自治区地方教育附加征收使用管理办法》印发给你们,试行一年,请认真贯彻执行。
英语名词作前置定语的数量越来越大,但主要分布在科技文中作专名;汉语前置定语与中心语的语义关系主要是所属关系,英语主要是相关关系和类属关系,而且定中之间的语义关系更复杂。
根据双尺度方程导出的尺度函数的Fourier变换无穷乘积公式,结合函数与函数的Hilbert变换之间的Fourier变换关系,提出了由2个共扼正交滤波器所构造的2个小波基是双小波基的一
一、“音节语素化”的提出及表现    (一)“音节语素化”的提出   “音节语素化”也有学者称为“语素化音节”,关于它的定义,比较集中地体现在张斌主编的《新编现代汉语》教材上。教材第三章(P151)指出:所谓音节语素化,主要指一些本来不表义的音节变成了表义的语素。这种提法从总体上指出了音节语素化的实质,即音节升格为语素。但善于再思索的人可能会发生这样的疑问:音节是怎么变成语素的?“不表义的音节”具