中小学藏文教材中情感词的分布规律研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:angelasun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在英汉文方面,有很多学者在研究和探讨关于情感词的识别和分布,但是对于藏语文情感词研究的课题和论文较少。本文以藏语文中小学教材中的情感词作为研究对象,研究藏语文情感词的分布规律、自动识别统计以及相关的语料库、分词和词性标注。分析了中小学藏文教材的用词量度,梳理了数据,设计切分算法,用概率统计方法处理情感词,得到统计结果。通过应用藏语言信息处理技术解决中小学藏语文教材中的情感词汇的统计问题,扩大了藏语言信息处理技术的研究范围,有助于提高藏语言信息处理水平。
  关键词:藏语情感词;藏语言信息处理;藏文教材;概率统计方法
  中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)06-0184-01
  1 概述
  在文献《现代汉语词汇统计同问的初步研究》[1]中对汉语文和藏语文教材中的新生词做了对比分析,指出汉语文教材规划成熟,新生词规划有科学依据。但是,中小学藏语文教材中新生词分布随意不均匀,认知规律凸显不够,需要更好地提现从易到难的科学分布。针对中小学藏语文教材中新生词的分布规律研究目前尚不多见,因此本文围绕已有新声词中的情感词进行统计分布研究,设计并实现中小学藏文教材中情感词统计系统,并分析情感词在教材中的难易程度和分布规律。
  本文的研究对中小学藏文教材的编排有一定的参考作用也助于学生对藏语文的认知,同时也是对藏文信息处理技术的应用与推广。
  2 情感词的定义及研究方法
  情感词是指在文本中具有情感倾向性的词语,它可以是名词、动词、形容词、副词以及一些习惯性用语或短语等。一般情况下,文本内容表达的情感倾向主要通过情感词来体现,故它也是情感倾向性判断的重要依据之一。情感词通常具有明显的感情色彩,比如表达心情的愉快()、高兴()、或是表达思想的积极()、正直()、也可以表达一些负面情绪堕落()压抑()、沉闷(),等,通常可将情感词分为正面情感词或负面情感词,也叫褒义词或是贬义词。而关于情感词的研究方法近几年来,国内外研究方法大概分为两种:基于语义的分析研究和基于统计的分析研究。
  基于语义的方法又主要有两种方法。第一种方法是,先抽取出文本中的形容词或者带有明显感情色彩的词,称为情感词,然后对这些情感词或者包含情感词的短语逐一进行情感倾向判断,得到它们的情感倾向值,最后将这些短语的情感倾向值求和来得到文本最终的情感倾向;第二种方法是,先建立一个情感倾向语义模式库,包括情感词字典等资源,然后将文本参照这个库做匹配模式,计算得到一个情感倾向值,最后将这些模式的倾向值进行累加,最终得到整个文本的情感倾向。
  3 教材中词频统计
  藏语文小学教材共有课文274篇,第1册为字母学习,在进行课文统计时,未计算在内;1-12册词种数9224条,97366词次。初中教材6册,初中共有课文126篇,藏语文初中教材共有词种数12920条,191062词次。本文在藏文教材中取出六万多条词条对情感词进行统计分布。
  4 情感词的统计分布
  1)小学教材
  在小学阶段根据教学大纲要求,将藏语文教材的情感词汇分为3类,即形容词、副词和动词,现统计分析小学情感词的分布如图1所示。
  图1分析:小学藏语文教材中形容词最多,占总数的4.66%;动词量最少,占词性总数的1.62%。按情感词性分类的情感次数排序为:形容词>副词>动词。汉语文基础教育新课标教材相关统计结果表明,小学藏文教材中情感词(形容词、副词)数量多,而动词数量却相对较少。说明形容词和副词用词丰富,数量多,在一定程度上体现了用词量多特点。
  2)初中教材
  藏语文初中教材中,适应学生理解能力的提高,课文选材中大幅度选入本民族传统语法知识和修辞知识。根据教学大纲要求,将藏语文教材的情感词汇分为3类,即形容词、副词和动词,又根据《青海民族大学词性标注规范大集》将动词分为四小类即:存在动词、判断动词、及物动词和不及物动词来统计分析初中情感词的分布如图2所示。
  图2分析:初中藏语文教材中及物动词最多,约为18998个,占词性总数的33.76%;存在动词量最少,约为2630个,占词性总数的6.48%。按情感詞性分类的情感次数排序为:及物动词>不及物动词>形容词>副词>判断动词>存在动词。中学阶段要求掌握情感词汇的分类方面的知识,为了集中反映这部分词汇安排情况,统计中特别对初中阶段内容涉及情感词予以统计。
  5 结语
  本文对中小学藏语文教材中的情感用词情况,用概率统计方法进行了计量统计和分析。一方面为客观评价小学、初中教材提供一个定量标准,另一方面也为中学阶段的藏文制定量化词汇教学目标提供依据,为提高藏语文中学教材的编写质量奠定一定的基础。
  参考文献:
  [1] 常宝儒.现代汉语词汇统计同问的初步研究[J].语言教学与研究,1985(1).
  [2]苏新春著.词汇计量及实现[M].北京:商务印书馆,2010.
  [3] 于洪志,曹晖,李永宏,等.小学藏语文新课标教材用词调查.中国 2009 语言生活状况报告 下编.国家语言资源监测与研究中心编,2009.
  [4] 张金爽,高璐,李永宏,等.新旧小学藏语文教材量化对比分析——文章体裁、文学体裁及选材的统计研究[J].西北民族大学学报:自然科学版,2010(1).
其他文献
连锁企业在市场推广中都会面临这些问题:是选择消费密集型市场,还是另辟空白市场:是与对手进行硬碰硬火拼呢,还是另寻新法呢……本期案例以席殊书屋的连锁推广实际操作为范例,希望
企业集团核心能力是集团整体的资源,它的培育是跨部门、跨企业的战略性行动。企业集团首先必须弄清楚企业的外部环境和内部资源条件,然后确立目标,找出影响企业集团核心能力形成
中国特色社会主义事业获得全效发展,当中各类业务开始对于互联网技术产生高度依赖特性,一旦说操作沿用期间衍生任何故障危机,都会直接令特定区域经济、文化、政治和谐地位遭
加强国有资产监管,落实国有资产保值增殖责任,维护所有者权益,建立有效的企业激励和约束机制,这些措施的贯彻实行过程当中都离不开国有资产经营者的责权利问题。那么如何对国有资
摘要:该文介绍了四轴飞行器的基本结构组成形式,并在此基础上根据牛顿第二定律和欧拉方程建立了四轴飞行器的系统动力学模型。  关键词:四轴飞行器;结构形式;动力学模型  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)09-0239-02  1 引言  四轴飞行器是一种旋翼飞行器,它利用四个电机分别控制其四个螺旋桨片的旋转,从而产生上升的动力,并实现指定路径飞行或远程遥
摘要:对数学专业实验课教学现状进行了分析,提出了基于云平台的数学实验教学模式,给出了一种具体的云平台教学实验室的硬件建设和软件建设方案。该方案转变了传统数学实验的管理模式和教学模式,解决了目前高校数学专业实验教学模式单一、学生积极性低、实验室建设成本高,管理效率、利用率、资源共享率低等问题,云平台的使用提高了实验教学效果。  关键词:云平台;数学专业实验;虚拟化;虚拟桌面;实验教学管理系统  中图
摘要:PLC,即可编程逻辑控制器,广泛应用于工业生产中的自动化控制、信息采集环节。目前单核PLC逐渐难以应对复杂的工业场景,多核处理器PLC有异构等特性,在性能、功耗、响应和计算能力方面有显著优势。本文旨在分析多核处理器PLC的优势与编程方案。  关键词:可编程逻辑控制器;异构多核系统  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)33-0198-02  1 背
在分析入侵检测模型的基础上,结合模型体系的结构、工作流程及针对目前入侵检测系统成为被攻击目标的现状和代理技术给系统带来的安全问题,提出了基于MA的分布式入侵检测系统
摘要:从2008年开始的全国技能大赛已经成为职业教育的盛会,2012年、2013年、2015年的全国物联网技能大赛对物联网专业建设有着巨大的影响力,很多高职院校物联网专业发展都随着技能大赛不断地改革、创新并取得长足的进步,并在大赛中寻找着未来发展新的契机和方向。  关键词:物联网;无线传感网络;射频识别;安卓平台  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)2
针对体育教学改革不断深化的现状,论述了《运动解剖学》计算机辅助教学(简称CAI)课件开发的现实性,课件设计的原则,课件的类型,以及课件设计的方法。