词性标注规范化探索

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:sufe_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:词性标注问题一直是计算语言学中的一个难点问题,对于一些词类的标注标准和方法,至今仍未统一,如兼类词、区别词,这给进一步的句法分析和语料库的共享带来了很大困难,甚至有时候会造成资源的浪费。本着实用的目的,在参考各家标注策略的基础上,本文对兼类词、区别词和状态词的标注给出了统一的标注策略。
  关键词:词性标注 句法分析 兼类词 区别词 状态词
  
  一、引言
  
  在大多数情况下,对语料进行词性标注,只是语料库建设的一个开始,而不是终点。句法标注是当前的一个研究热点,是建立在词性标注基础上的一项工作。我们在对语料进行句法标注的过程中发现,分词系统中一些词类标记会给句法分析工作带来一些困扰。这些问题不仅影响到句法标注的效率,也影响到标注的准确性和一致性。因此,在分词及词性标注阶段,应考虑词类标记对句法层面的影响,以节省人力、物力。
  首先,分词类别(或POS标记)应该在句法上有功能意义,例如名词、动词等。因为那些不是从句法层面划分出来的标记,即使标示出来也无法在句法分析中进行处理。
  其次,在有意义的基础上,我们需要把握一个度。因为与语言本体或语言理论研究追求细致和完美的目的不同,语言工程更多地是要求时效性和可行性。在语料库的标注过程中,词类划分不宜过多或过少。词类过少,对句法分析的深度和精度不够。词类过多,又会使语言分析和处理的过程太复杂,代价太高。那么,到底划分多少词类才能在句法层面达到自足呢?对世界上13种语言依存句法的考察表明,在进行自动句法分析时,一种语言所划分出的词类数量一般应当控制在在10~20之间。
  本文通过系统①,探讨了兼类词以及区别词和状态词的词性标注问题。我们将首先对所讨论的标记概念进行界定,然后对比当今国内几大分词系统对其的处理,最后经过综合分析探讨之后,提出一些具有可行性的建议。
  
  二、兼类词
  
  兼类词从狭义上讲是指同一个义项(严格说是同一概括词)兼属多个词类。如“小时(n/q)”。从广义上讲还包括意义上有联系的几个义项属于不同词类。如“通知(v/n)”。
  兼类词的处理在计算语言学中一直是个颇有争议的难点问题,怎么来处理兼类词,区分还是不做区分,粗分还是细分。为了回答这些问题,我们从语言本体和计算机处理的角度,对国内的几个分词系统进行了分析和比较。
  据统计,兼类词主要出现在名词、动词、形容词、副词之间。那么,这几个分词系统是如何处理这些词类的呢?表1为几个系统对五种词类的标注:
  表1:四大标注系统的五类标记对比
  


  从上面的对比和对具体语料的考察可知,四个系统对兼类都做了不程度的区分:A和D较严格地区分了各种兼类情况,并且连“名物化”现象都做了区分。B系统的分词类别最为详尽,但具体对兼类的处理和C系统并没有大的差别,它们都只对明显的兼类情况做了区分。
  但是,当在这些系统输出的基础上进行句法分析时我们却发现:(1)由于语言使用的灵活性,机器还不能对大量的兼类做很好的区分,如像“工作”类广义的兼类词都不能很好地区分,仍需要人工排查。(2)由于动词性兼类大量不做区分,致使动词成了全能词,其功能在数据上的区分度在所有词类中最低。(3)兼类词的不做区分不利于计算机句法分析,也不利于基于语料库的语言学研究。
  基于以上分析,我们认为,对兼类的处理应该采取严格区分的标准,综合考虑进一步句法分析的需要和宽泛意义上的通用性需要,并参考本体语言学的有关研究成果。因此我们提出如下建议:
  第一,对于兼类词的第二种情况,也即意义上有联系的几个义项属于不同的词类的,既然是不同词类,就必须分开,如“锁、领导、工作、死”等。陆俭明认为,从本体研究的需要出发,这些词并不属于兼类词,也就是说虽同音,但意义不同,所以必须分开。
  第二,对于兼类词的第一种情况,这也是分词系统的难点问题,是我们主要解决的问题。在四个系统中,只有A和D对其做了区分,但其区分并没有改变词类,只是从活用的角度在小类内部做了区分,如vd与vn,虽然从词类上看似比较合理,但对进一步的句法分析并没有什么大的帮助。况且我们仔细分析就会发现,不只是动词和形容词存在这种情况,名词也会有这种情况,比如现在看来已经很普遍的“很+名”现象,如果按这样的观点,很大一部分名词如“阳光、女人”都应该标为na,但为什么没有标呢?
  这类兼类主要有以下几种情况:
  1.“v-n”兼类、“v-d”兼类
  在黄昌宁等的统计中,动词和名词的兼类在《中学生词典》中占兼类词总数的49.8%,在《兼类词选释》中占兼类词总数的37.6%。据郭锐统计,具有名词性的动词在10300个动词中有2381个,占23%,在词频最高的前3925个词中共有1220个,占31%。因此,对这类词的处理对句法分析会产生较大的影响,应分开处理,如“研究、调查、学习、发展、解决”等。动词和副词的兼类虽然数量上没有前者多,但由于其功能性比较明显(直接作状语),因此我们也建议分开。
  2.“a-n”兼类、“a-d”兼类
  因为动词和形容词同属谓词类,且这类兼类情况在兼类中的数量仅次于动名兼类,因此,我们也建议区分开来。形容词和名词的兼类如“安全、健康、平衡、奥妙”等,形容词和副词的兼类如“认真、深入”等。
  3.“n-q”兼类
  有些名词可以经常用在数词的后面表示物量或者动量,前者如“碗、桶、车”等,后者如“刀、笔、天”等。因为其功能比较明显,并且在数据库中这类词的数量也并不少,因此按量词处理。
  4.名词的其他活用
  虽然我们对动词、形容词的活用都做了区分,但考虑到这类名词活用现象的数量有限性和意义单一性,我们对名词临时具有形容词性质的情况不做区分,仍按名词处理。
  
  三、区别词和状态词
  
  形容词是汉语实词中非常重要的一类词,一般表示事物的性质、状态,其内部分类比较复杂。在比较早期的语法书当中,以下的几类词统统被归为形容词:
  a.黄、慢、大、幼稚、美妙、透明、简单,安全……
  b.黝黑、雪白、火热、碧蓝、稀里糊涂、古里古怪……
  c.上等、慢性、有线、长途、活期、金、副……
  其中,c类最早由吕叔湘、饶长溶(1981)提出,他们称之为“非谓形容词”,是形容词的一个次类。朱德熙先生在《语法讲义》里首次将c类形容词单列为“区别词”。
  对应于语法上的不同分类,现存的国内语料库在词性标注这一问题上,存在着明显的差别。有的系统把区别词从形容词中划分出来,如系统a、c。在系统a中,还对区别词进行了更为细致的区分:①一般为切分单位,并标以词性b,如女/b司机/n,金/b手镯/n;②单音节区别词和单音节名词或名语素组合,作为一个切分单位,并标以名词词性n,如雄鸡/n,雌象/n;③少数“单音节区别词+双音节词”的结构作为一个词收入了词典,则不再切分。总书记/n。与之不同,系统b把形容词分为四类:性质形容词aq、区别词b、唯谓形容词ap、状态形容词as;系统d则把区别词从形容词当中分割出来,将区别词分为b区别词、b1区别词性惯用语,而且把状态词也从形容词中分割出来并给予一个z作标记。
  从计算语言学的角度来看,这些对形容词的分类都因太复杂而影响到了句法分析的效率。如何处理才能更适合进一步的句法分析呢?首先从语言本体的方面,针对这三类词的不同性质特征,作一个比较,见表2:
  表2:三种形容词的对比
  


  不难发现,尽管这三类词的语法功能各不相同,但是,它们有一个唯一的共同点,即作名词的定语。不同的分词标准,服务于不同的研究目的。由于“区别词的词类本质是修饰,功能固定而单一”。较好地体现了形容词性成分的功能,所以遵循着灵活的分类意见,本文建议将这三类词归并在一起。区别词可以看作作定语的形容词当中的一个小部分,状态词则或作谓语,或作补语,或作定语的形容词中的一个小部分。
  在语言本体研究上应该把区别词和形容词作一个明确的区分,区分的理论价值不容否认。而“区别词的词类本质是修饰,功能固定而单一”。从工程的角度,即从语料库的建设角度所采取的划分则与之迥异。因为与语言本体或语言理论研究追求细致和完美的目的不同,语言工程更多是要求可行性和可操作性。
  
  四、结语
  
  在计算语言学中,语料库的标注是进行一切研究的基础,从语料库工程建设的角度讲,我们应坚持经济省力原则,对于不必要的词类标记建议能简则简。正如本文所述,在参考各家本体语言学研究的基础上,对于兼类词,除少数名词活用之外,我们建议严格按功能区分词性,将其划到各个词类之中;而区别词、状态词,则建议不再和形容词区分开来。标注方案的一致性不仅能节约资源,减少建设语料库的资金投入,同时也能给我们的研究和应用带来便利,为进一步开发语料库奠定基础。
  
  (本文为中国传媒大学“211工程”三期重点学科建设项目,名称为“汉语有声媒体语言依存句法树库构建与应用研究”。)
  
  注 释:
  ①A系统:北京大学现代汉语语料库加工规范,《中文信息学报》,
  16卷第5期;B系统:国家语言文字应用研究所计算语言学研究室,信息处理用现代汉语词类标记集规范,《语言文字应用》,2001年8月第3期;C系统:哈工大信息检索研究室汉语依存树库;D系统:中科院计算所汉语词性标记集。
  
  参考文献:
  [1]郭锐.现代汉语词类研究[M].北京:商务印书馆,2002.
  [2]Liu,Haitao&Huang,Wei.A Chinese Dependency Syntax for Treebanking[M].Beijing:Tsinghua University Press,2006.
  [3]陆俭明.现代汉语语法研究教程[M].北京:北京大学出版社,2005.
  [4]黄昌宁,童翔.汉语真实文本的语义自动标注[J].语言文字应用,1993,(4).
  [5]俞士汶,段慧明,朱学峰,孙斌.北京大学现代汉语语料库加工规范[J].中文信息学报,2002,(5).
  [6]北京大学中文系现代汉语教研室.现代汉语专题教程[M].北京:北京大学出版社,2003.
  
  (万红雅 刘丙丽 牛雅娴 董艺 北京 中国传媒大学应用语言学研究所 100024)
其他文献
摘 要:本文以乌鲁木齐市青少年独特的言语现象为语料,分析了青少年言语现象的特征、来源,探讨了其社会性征。语言是生活的反映,从青少年语言中可以分析出他们的独特心理,以此深入了解青少年,使家长及教育工作者能与青少年进行更好的交流。  关键词:青少年 自说自话 言语行为    笔者近期在和乌鲁木齐市一些中学生近距离接触时,发现他们当中流传着一些成人世界从不使用的言语,有时根本就不明白他们在说什么。比如,
期刊
摘 要:廓类(qualia)的语用现象表现了主体对表达中事物的性质或现象的特性的感知。在语用上体验一个廓类,往往是难以言传的,但人们总会自然地求助于语言系统中最能表征的词语以类比的方式来表达这种体验。因此,带有自身本质特性的廓类又有了许多语用意义上的附加特征,正是这些附加特征具体体现了人类语言表征的心智演绎的微妙与深奥,同时,也带来了许多相关问题,需要人们去探索。  关键词:廓类 类比 语言表征 
期刊
摘 要:本文对《说文解字》“戈”部字作了穷尽式的考察,明确其义类归属,梳理其词义的孳乳演变,指出《现代汉语词典》(第5版)在释义某些“戈”部字时存在的尚可待商榷之处。  关键词:《说文解字》 《现代汉语词典》(第5版) “戈”部 义类     《说文解字》“戈”部文二十六,本文对此二十六字一一加以分析,指出其义类归属,梳理其词义的引申变化,并对《现代汉语词典》(第5版)此类字释义时存在的问题进行商
期刊
摘 要:对联历来被定性为文字笔墨游戏、文学样式、民间文学、艺术形式等,这些观点大都是从文学、美学、民俗学等角度进行审视的。本文认为,对联是一种对称、简短、诗性的言语行为模式,对联的使用实质上是以“联”行事,传达特定的交际意图和执行特定的施事行为。对联的使用遵循了“言语求美策略”,是形式美和内容美的统一。  关键词:对联 言语行为 以“联”行事    一、引言  中国有一个成语叫“言行一致”,实际上
期刊
摘 要:本文从配价理论和论元理论出发,对汉英运动类“准二元Vi”及其宾语构式进行探讨。我们发现正是“准二元Vi”本身的特殊性,即由不及物动词向及物动词方向飘移,引起了宾语构式的变化。通过比较,本文发现汉语运动类“准二元Vi”及其宾语构式和英语运动类“准二元Vi”及其宾语构式在句法结构和语义表达方面既有共性又有个性。两者都是通过介词隐现改变宾语构式和突显语义焦点,汉语的句法结构比较复杂,但介词隐省前
期刊
摘 要:汉语古诗词历史悠久,蕴含着深厚的文化底蕴。诗词是最具汉语言特色的文学文本形式,不仅凝练高雅,而且意义深远。因此,诗词翻译的成功与否就在于是否准确地使原文意义再现。在翻译诗词的过程中,只有语言功能的对等、两种语言形式之间的相关同构体才能重现原文意义与风格。这样的同构形式便使得译文在译文读者心中的心理反应与情感体验与原文在原文读者心中的心理反应与情感体验达到了最大化的相似性。诗词翻译也就成功地
期刊
从1919年废除文言文的白话文运动至今已历时90周年。用了几千年的文言文为什么突然要废除呢?为什么废除90年以后还有人舍不得呢?到底应该怎样对待文言文的历史和未来、文言文和相关的汉字呢?我们先看赵元任先生创造的一个极端的文言文例子,即文段(1):  下面(1)来自赵元任《语言问题》(北京:商务印书馆,1980年)第149页,(2)是(1)的普通话译文,(3)是(2)的拼音转写。  (1)石室诗士施
期刊
摘 要:语言是文化的镜象折射,透过一个民族的语言层面,窥见的乃是这个民族绚丽多彩的文化形态。汉语俗语是汉民族语言文化的历史产物,包含了丰富的社会文化内容,体现出鲜明的民族文化特色。  关键词:汉语俗语 民族文化 地域文化    汉语俗语也叫俗话,是一种通俗、形象、广泛流行在人民群众中的定型语句,是人民群众在日常生活、生产劳动、社会实践中创造和总结出来的。它是汉民族语言文化的一种形态,是汉民族语言文
期刊
摘 要:趋向动词“起来”的形成,经历了漫长的语法化过程,从一个实词逐渐虚化为现代汉语中表示动词或形容词时体的重要标记。“起来”的语法化既是实词虚化的过程,也是“起来”与其它语言单位组合不断变化的过程。  关键词:起来 语法化 趋向动词    一、引言    复合趋向动词“起来”是现代汉语中用的很频繁的一个词,使用非常广泛,用法也比较复杂。“起来”的语法化研究又是汉语研究中的一个热点,以前的学者只从
期刊
摘 要:本文从语义和语用上对《王朔全集》里的詈骂语做了详细的类别分析,并从詈骂语使用者的性别差异上对各类詈骂语进行了统计和解释,由此说明当代汉语詈骂语研究尚有巨大的发展空间。  关键词:当代汉语詈骂语 语义 语用 性别差异    “詈骂”应具备两个要素:骂语和骂意。骂语,立足于语义,一般由贬义词构成。骂意,立足于语用,体现骂者有意刺激被骂者的某种情绪。因此,我们将詈骂语概括为三类:有骂语有骂意类、
期刊