语料库中词的切分问题

来源 :人间 | 被引量 : 0次 | 上传用户:exiayouhun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:词是语言中一个多维性的概念,不同的研究方向和视角,便产生了不同的维度的词。语法词是语法学研究的对象,心理词是心理语言学研究的对象。语法词和心理词两者既有联系,也有区别。语料库中词的切分标准就涉及到了语法词与心理词问题。
  关键词:语料库;语法词;心理词
  中图分类号:H3 文献标识码:A文章编号:1671-864X(2016)02-0149-02
  一、引言
  语料库是进行语言学研究和计算机研究的大规模电子文本库,不同的语料库有不同的作用,分词语料库就是针对分词专门建立的自动分词语料库。孙茂松(1999)在《谈谈汉语分词语料库的一致性问题》中提出一个问题:语料库的分词应该倾向于切成“语法词”还是“心理词”?孙茂松认为,所谓的“语法词”是指语言学家心目中的词,“心理词”指不自觉得潜移默化于老百姓心目中的词。“语法词”与“心理词”两者的定义不同,划分标准也不同,语料库的分词应该以哪一个为标准,这是值得我们思考的问题。孙茂松提出语料库的分词应该突破“语法词”的圈圈,把视野进一步扩大到“心理词”上①。这样,语料库中词的切分就不仅仅考虑了语法上的标准,还注意到了读者心理上词的划分情况。
  本文拟就语料库中词的切分问题进行研究,探讨语料库中的分词到底应该如何执行。
  二、语法词
  章士钊最早提出了“词”的概念,细致地区别了字、词以及短语。黎锦锡指出“词就是说话的时候表示思想中的一个观念的语词”,这种说法完全是从意义的角度对词进行的定义,忽略了虚词,因而具有一定的局限性。王力把词定义为“最小的意义的单位”,他在确定词的过程中,还采用插入法和意义分析法来确定词,这种确定词的方法今天仍然在用。吕叔湘定义词为“语言的最小的独立运用的单位”。目前学界比较认定的是黄伯荣、廖序東提出的“词是语言中最小的能够独立运用的有音有义的单位”。这是从语法角度对词所作出的本质概括,所以也可以视为“语法词”的定义。
  语法词是语法学研究的主要内容之一,突出了词的语法性,是语料库中划分词的最主要的标准。
  三、心理词
  心理词是指读者头脑中对词的表征,它包括了个人对该词所包含的所有信息,如词的拼音、意义、拼写以及和其它词的关系等。心理词的实质是看一个汉字组合在读者认知系统中是否是作为一个整体被表征的,从定义来看,心理词突破了传统的对词的定义,范围上有所扩展和延伸,既包含了传统意义上的词,又包含了一些词汇化的单位,如短语等②。心理词是个比较宽泛的概念,相对于“语法词”来说,它具有很大的主观性以及模糊性,其分合程度因人、因词而异。
  心理词与语法词在某些情况下是可以一致的,如“成功”、“商店”等词,在语法上和读者的心理表征上都被认为是词。这时,心理词和语法词都是读者在阅读中的基本语义单元,只不过语法词是从语法的角度规定词的构成,而心理词的定义更加关注读者阅读时加工的语义单元。
  心理词与语法词在某些情况下也可能不一致,如“自然科学”,在语法上是“自然”和“科学”两个词,但是很多读者在心理上将其划分为一个词,把它作为一个整体来接受。心理词是存在于读者心理词典中的词条,因每个人的知识掌握水平、经验以及一些客观原因的不同而不同,没有一个统一的标准,因此不同的读者对词所作出的判定不可能完全一致。如此看来,心理词与语法词的标准也就可能一致,可能不一致。这也是心理词的弹性和模糊性所在。
  四、心理词与语法词切分分歧的原因
  (一)语法知识水平
  闫国利(2012)做过一组实验,挑选一定数量的不同语法知识水平的人(中文专业的学生和一般的学生)对相同的篇章进行词切分,并且观察他们词切分的差异。研究结果发现:语法知识掌握水平影响读者对词的认识,当读者语法知识掌握少时,对词的认识就比较模糊,切分的单元会比依据语法标准切分所获得的词单元大,因此心理词与语法词的差异也就很大;当读者掌握的语法知识较多时,对词的认识会比较清晰,切分的单元更贴近依据语法标准切分所获得的词,因而心理词与语法词的差异也就较小。
  因此不同的读者对词的切分存在分歧的最主要原因就是读者语法知识的强弱。当读者的语法知识薄弱,缺乏清晰的词概念,对什么是词以及如何区分词没有明确的认识的时候,就容易导致心理词与语法词之间的差异过大。比如“就是”,是由副词与动词两个语法词组合起来的,但是很多人会凭感觉将它划分为一个词。还有很多读者不是按照词形或语言学标准完成词的切分,而是受文本背景的影响,根据直觉完成词切分,切分的单元表达一件事或者一个概念。
  (二)汉语书写系统的特点
  汉语文本以字为基本书写单位,每个汉字所占的空间大小一样,并且汉字间的间隔也是等距的,词与词之间没有明显的物理线索标记词。因此汉语读者如何对句子进行切分,如何识别词以及短语,一直是语言学家们研究的问题。关于读者阅读的基本信息单元问题,目前学界有两种说法。一种是汉语阅读是基于词的阅读,另一种观点是汉语阅读是基于字的阅读。这两种说法都得到实验证据的支持。
  (三)词频
  词频是指某个固定搭配出现的次数,出现的次数越多,频率越高,变成心理词的可能性就越高。如“猪肉”、“文化馆”,从语法词的角度划分,“猪肉”应该是由“猪”、“肉”两个词构成;“文化馆”由“文化”和“馆”两个词构成。但是由于这两个词搭配出现频率很高,读者从自己的阅读经验出发,就更倾向于将它们看作是词而不是短语。
  (四)语义的联系
  不同词之间的语义联系是影响读者对词切分的因素之一。当两个词之间的语义联系密切时,读者的判断会受到影响,从而将它们划分为一个词。如“研究方法”,从语法词角度划分,是“研究”和“方法”两个词;而读者鉴于“研究”与“方法”两个单元之间的语义上的密切联系,会将“研究方法”看成一个整体。   (五)结构上的相似性
  由于语言单位结构的相似性,我们在划分词或短语的时候会错误地进行类比,故而划分错了词或短语。如,“白菜”不等于是“白的菜”,“黑板”不等于是“黑的板”,因此“白菜”、“黑板”是词而不是短语。若是以此类推,认为“牛肉”等于“牛的肉”,那么“牛肉”就是短语而不是词。这就是不正确的反推,相似的语言结构不代表属于同一语法层级单位。
  另外,语义的稳固性、读者阅读过程中正确切分词的需求、词的定义方法不同等都是影响词切分的因素。
  五、心理词进入语料库
  汉语读者进行词切分的时主要有两个特点:(1)把实词和虚词连在一起,如“等于”、“我的”。(2)把短语看作一个词,“猪肉”、“一名”、“研究方法”。
  对于“等于”、“猪肉”这样的切分,我们是可以接受的,因为“等于”、“猪肉”这样的切分,一定程度上反映了人的心理倾向。这样的切分,语料库里是可以存在的。而“我的”、“一名”、“研究方法”这样的切分,与语法词的偏离较大,语料库里是不能包容的。因此,我们需要引起关注的是:语料库中詞的切分应该考虑到心理词的因素,但不是所有的心理词都能进入语料库。那么,到底什么样的心理词能进入语料库?
  心理词的概念不单单是读者头脑中对词的界定,对于像“猪肉”、“等于”这类词的切分,读者是从自身的阅读经验出发,认为读者阅读的基本信息单元不是词典上的语法词而是更贴近真实阅读,更具有弹性以及灵活性的心理词。从这个角度看,语料库中词的切分不应该仅仅局限在语法词上,我们应该将触角由“语法词”延伸到“心理词”。需要注意的是,我们也不能将“心理词”的外延无限扩大,导致它们急剧膨胀,阻碍“语法词”的发展。换句话说,心理词进入语法词必须有个限度。那心理词进入语料库的度是什么?笔者认为,第一,语料库里切分的心理词应该是反映大多数语法知识水平较高的人(专科以上水平)的共同心理倾向,而不能是反映单个人的心理倾向。第二,切成的“心理词”与“语法词”之间差异不能过大,否则会给词汇造成一定的混乱。第三,两个相同的结构体的心理词在语料库中的切分是否应该一致,这个要具体问题具体分析。把握好心理词进入语料库的度,是目前语料库中词的切分问题的一个难点,实践起来遇到的具体困难,还有待于我们去解决。
  六、结语
  语法词和心理词是汉语中很值得关注的两种词。语法词是词汇中最小的可以独立运用的音义结合体,心理词是心理语言学中读者头脑中对词的表征。两者既有区别也有联系。语法知识的掌握水平、汉语书写系统的特点、词频、语义关系、结构的相似性都会影响读者对词的切分。无论是语法知识掌握水平低的人还是语法知识掌握水平高的人,都不能完全将词与其它语言成分区别开来,“语法词”与“心理词”这两者在一个人身上是同时并存的。每个读者词切分出来的单元就是读者头脑中的心理词,因而心理词有极大的模糊性与主观性。语料库中应收入反映绝大多数语法知识水平较高的人的共同心理倾向并且与“语法词”差异较小的“心理词”。
  注释:
  ①孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2).
  ②孙莎莎.汉语心理词加工的优势效应[J].天津师范大学,2012.
  参考文献:
  [1]张兰兰.不同语法知识掌握水平对中文词切分的影响[J].天津师范大学,2009.
  [2]闫国利.汉语阅读中的心理词加工[J].心理与行为研究,2012(10).
  [3]高燕.词汇词·语法词·拼写词[J].
其他文献
我国的教育正处于不断改革的发展阶段,人们对于孩子学习成绩的重视,逐渐转变成为对孩子全面发展的重视.积极转变幼儿教育“小学化”的教学理念,能够更好地完成幼儿教育.本文
目的探讨狗组织相容性系统(DLA)-DRB1基因分型方法及用于狗卵巢移植配型的可行性。方法 选择特定的引物和 6种限制性内切酶,采用聚合酶链反应-限制性片段长度多态性(polymerase chain reactionbasedonrestrictionfragment length polymorphism, PCR-RFLP)技术建立了 DLA-DRB1基
学习习惯是在学习过程中经过反复练习形成并发展成为一种个体需要的自动化学习行为方式.良好的学习习惯,是学习知识、培养能力、发展智力的重要条件.学习习惯不仅直接影响学
摘要:党的十八大以来,习近平同志对廉政建设工作作出了新的定位,提出了一系列反腐倡廉建设的新思想、新论断、新要求和新举措,彰显了新一届中央领导集体深入推进反对腐败,建设廉洁政治的鲜明立场和坚定决心。然而,由于我国正处在社会矛盾的凸显期、社会发展的关键期以及社会改革的攻坚期,在经历着严峻的形势和艰巨的任务的国情、党情之下,在面临着前所未有的发展机遇和风险挑战之时,此刻,深入研究我国反腐倡廉历史,考察历
目前,信息资源已成为继能源之后的最为重要的社会资源,对信息资源的占有量和利用率,已成为衡量一个国家综合实力的重要标志,也是参与竞争的必需资本.本文就档案资源平台及区
把文字内容情景化是活化语文课堂教学,提高教学效率的重要举措.微课具有较强的针对性、形象性,主题鲜明的特点,能有效地活化语文课堂教学.教师可以用微课活化、创设教学情境,
教学方式包括教师教的方式和学生学的方式.教的方式是教师课堂教学中为完成教学任务而采取的教学策略和教学倾向的总和.而学习方式是学习者持续一贯表现出来的学习策略和学习
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
期刊
“郡县治,天下安”.加快推进县域经济发展是我国全面建成小康社会的重要举措和战略支撑.笔者结合在江西省南丰县两年挂职实践,着重从地方政府角度探讨农发行如何深入有效发挥
颈椎是整个脊椎中体积最小,但最灵活、活动频率最高的节段,在运动、工作、日常活动中都承担着各种负荷,因此也是最容易发生劳损和退变的节段.颈椎病发病率与年龄呈正相关,一