论文部分内容阅读
摘要:在英汉文方面,有很多学者在研究和探讨关于情感词的识别和分布,但是对于藏语文情感词研究的课题和论文较少。本文以藏语文中小学教材中的情感词作为研究对象,研究藏语文情感词的分布规律、自动识别统计以及相关的语料库、分词和词性标注。分析了中小学藏文教材的用词量度,梳理了数据,设计切分算法,用概率统计方法处理情感词,得到统计结果。通过应用藏语言信息处理技术解决中小学藏语文教材中的情感词汇的统计问题,扩大了藏语言信息处理技术的研究范围,有助于提高藏语言信息处理水平。
关键词:藏语情感词;藏语言信息处理;藏文教材;概率统计方法
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)06-0184-01
1 概述
在文献《现代汉语词汇统计同问的初步研究》[1]中对汉语文和藏语文教材中的新生词做了对比分析,指出汉语文教材规划成熟,新生词规划有科学依据。但是,中小学藏语文教材中新生词分布随意不均匀,认知规律凸显不够,需要更好地提现从易到难的科学分布。针对中小学藏语文教材中新生词的分布规律研究目前尚不多见,因此本文围绕已有新声词中的情感词进行统计分布研究,设计并实现中小学藏文教材中情感词统计系统,并分析情感词在教材中的难易程度和分布规律。
本文的研究对中小学藏文教材的编排有一定的参考作用也助于学生对藏语文的认知,同时也是对藏文信息处理技术的应用与推广。
2 情感词的定义及研究方法
情感词是指在文本中具有情感倾向性的词语,它可以是名词、动词、形容词、副词以及一些习惯性用语或短语等。一般情况下,文本内容表达的情感倾向主要通过情感词来体现,故它也是情感倾向性判断的重要依据之一。情感词通常具有明显的感情色彩,比如表达心情的愉快()、高兴()、或是表达思想的积极()、正直()、也可以表达一些负面情绪堕落()压抑()、沉闷(),等,通常可将情感词分为正面情感词或负面情感词,也叫褒义词或是贬义词。而关于情感词的研究方法近几年来,国内外研究方法大概分为两种:基于语义的分析研究和基于统计的分析研究。
基于语义的方法又主要有两种方法。第一种方法是,先抽取出文本中的形容词或者带有明显感情色彩的词,称为情感词,然后对这些情感词或者包含情感词的短语逐一进行情感倾向判断,得到它们的情感倾向值,最后将这些短语的情感倾向值求和来得到文本最终的情感倾向;第二种方法是,先建立一个情感倾向语义模式库,包括情感词字典等资源,然后将文本参照这个库做匹配模式,计算得到一个情感倾向值,最后将这些模式的倾向值进行累加,最终得到整个文本的情感倾向。
3 教材中词频统计
藏语文小学教材共有课文274篇,第1册为字母学习,在进行课文统计时,未计算在内;1-12册词种数9224条,97366词次。初中教材6册,初中共有课文126篇,藏语文初中教材共有词种数12920条,191062词次。本文在藏文教材中取出六万多条词条对情感词进行统计分布。
4 情感词的统计分布
1)小学教材
在小学阶段根据教学大纲要求,将藏语文教材的情感词汇分为3类,即形容词、副词和动词,现统计分析小学情感词的分布如图1所示。
图1分析:小学藏语文教材中形容词最多,占总数的4.66%;动词量最少,占词性总数的1.62%。按情感词性分类的情感次数排序为:形容词>副词>动词。汉语文基础教育新课标教材相关统计结果表明,小学藏文教材中情感词(形容词、副词)数量多,而动词数量却相对较少。说明形容词和副词用词丰富,数量多,在一定程度上体现了用词量多特点。
2)初中教材
藏语文初中教材中,适应学生理解能力的提高,课文选材中大幅度选入本民族传统语法知识和修辞知识。根据教学大纲要求,将藏语文教材的情感词汇分为3类,即形容词、副词和动词,又根据《青海民族大学词性标注规范大集》将动词分为四小类即:存在动词、判断动词、及物动词和不及物动词来统计分析初中情感词的分布如图2所示。
图2分析:初中藏语文教材中及物动词最多,约为18998个,占词性总数的33.76%;存在动词量最少,约为2630个,占词性总数的6.48%。按情感詞性分类的情感次数排序为:及物动词>不及物动词>形容词>副词>判断动词>存在动词。中学阶段要求掌握情感词汇的分类方面的知识,为了集中反映这部分词汇安排情况,统计中特别对初中阶段内容涉及情感词予以统计。
5 结语
本文对中小学藏语文教材中的情感用词情况,用概率统计方法进行了计量统计和分析。一方面为客观评价小学、初中教材提供一个定量标准,另一方面也为中学阶段的藏文制定量化词汇教学目标提供依据,为提高藏语文中学教材的编写质量奠定一定的基础。
参考文献:
[1] 常宝儒.现代汉语词汇统计同问的初步研究[J].语言教学与研究,1985(1).
[2]苏新春著.词汇计量及实现[M].北京:商务印书馆,2010.
[3] 于洪志,曹晖,李永宏,等.小学藏语文新课标教材用词调查.中国 2009 语言生活状况报告 下编.国家语言资源监测与研究中心编,2009.
[4] 张金爽,高璐,李永宏,等.新旧小学藏语文教材量化对比分析——文章体裁、文学体裁及选材的统计研究[J].西北民族大学学报:自然科学版,2010(1).
关键词:藏语情感词;藏语言信息处理;藏文教材;概率统计方法
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)06-0184-01
1 概述
在文献《现代汉语词汇统计同问的初步研究》[1]中对汉语文和藏语文教材中的新生词做了对比分析,指出汉语文教材规划成熟,新生词规划有科学依据。但是,中小学藏语文教材中新生词分布随意不均匀,认知规律凸显不够,需要更好地提现从易到难的科学分布。针对中小学藏语文教材中新生词的分布规律研究目前尚不多见,因此本文围绕已有新声词中的情感词进行统计分布研究,设计并实现中小学藏文教材中情感词统计系统,并分析情感词在教材中的难易程度和分布规律。
本文的研究对中小学藏文教材的编排有一定的参考作用也助于学生对藏语文的认知,同时也是对藏文信息处理技术的应用与推广。
2 情感词的定义及研究方法
情感词是指在文本中具有情感倾向性的词语,它可以是名词、动词、形容词、副词以及一些习惯性用语或短语等。一般情况下,文本内容表达的情感倾向主要通过情感词来体现,故它也是情感倾向性判断的重要依据之一。情感词通常具有明显的感情色彩,比如表达心情的愉快(
基于语义的方法又主要有两种方法。第一种方法是,先抽取出文本中的形容词或者带有明显感情色彩的词,称为情感词,然后对这些情感词或者包含情感词的短语逐一进行情感倾向判断,得到它们的情感倾向值,最后将这些短语的情感倾向值求和来得到文本最终的情感倾向;第二种方法是,先建立一个情感倾向语义模式库,包括情感词字典等资源,然后将文本参照这个库做匹配模式,计算得到一个情感倾向值,最后将这些模式的倾向值进行累加,最终得到整个文本的情感倾向。
3 教材中词频统计
藏语文小学教材共有课文274篇,第1册为字母学习,在进行课文统计时,未计算在内;1-12册词种数9224条,97366词次。初中教材6册,初中共有课文126篇,藏语文初中教材共有词种数12920条,191062词次。本文在藏文教材中取出六万多条词条对情感词进行统计分布。
4 情感词的统计分布
1)小学教材
在小学阶段根据教学大纲要求,将藏语文教材的情感词汇分为3类,即形容词、副词和动词,现统计分析小学情感词的分布如图1所示。
图1分析:小学藏语文教材中形容词最多,占总数的4.66%;动词量最少,占词性总数的1.62%。按情感词性分类的情感次数排序为:形容词>副词>动词。汉语文基础教育新课标教材相关统计结果表明,小学藏文教材中情感词(形容词、副词)数量多,而动词数量却相对较少。说明形容词和副词用词丰富,数量多,在一定程度上体现了用词量多特点。
2)初中教材
藏语文初中教材中,适应学生理解能力的提高,课文选材中大幅度选入本民族传统语法知识和修辞知识。根据教学大纲要求,将藏语文教材的情感词汇分为3类,即形容词、副词和动词,又根据《青海民族大学词性标注规范大集》将动词分为四小类即:存在动词、判断动词、及物动词和不及物动词来统计分析初中情感词的分布如图2所示。
图2分析:初中藏语文教材中及物动词最多,约为18998个,占词性总数的33.76%;存在动词量最少,约为2630个,占词性总数的6.48%。按情感詞性分类的情感次数排序为:及物动词>不及物动词>形容词>副词>判断动词>存在动词。中学阶段要求掌握情感词汇的分类方面的知识,为了集中反映这部分词汇安排情况,统计中特别对初中阶段内容涉及情感词予以统计。
5 结语
本文对中小学藏语文教材中的情感用词情况,用概率统计方法进行了计量统计和分析。一方面为客观评价小学、初中教材提供一个定量标准,另一方面也为中学阶段的藏文制定量化词汇教学目标提供依据,为提高藏语文中学教材的编写质量奠定一定的基础。
参考文献:
[1] 常宝儒.现代汉语词汇统计同问的初步研究[J].语言教学与研究,1985(1).
[2]苏新春著.词汇计量及实现[M].北京:商务印书馆,2010.
[3] 于洪志,曹晖,李永宏,等.小学藏语文新课标教材用词调查.中国 2009 语言生活状况报告 下编.国家语言资源监测与研究中心编,2009.
[4] 张金爽,高璐,李永宏,等.新旧小学藏语文教材量化对比分析——文章体裁、文学体裁及选材的统计研究[J].西北民族大学学报:自然科学版,2010(1).