基于HSK动态作文语料库的留学生作文词熵统计分析

来源 :华侨大学 | 被引量 : 0次 | 上传用户:nooneknow7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
索绪尔指出,语言是一种社会现象,是一种表达观念的符号系统。在汉语作为第二语言的教学过程中,我们发现汉语水平较低的学习者掌握的词汇数量有限,写作中使用词汇范围小,而中高级的学习者一般不受常用词的限制,往往使用的词汇更多样。这种语言文本中符号的使用与信息量有关,信息熵的计算可以应用于任何类型的频率分布。本论文以北京语言大学“HSK动态作文语料库”为研究基础,从语言的信息属性出发,结合计量语言学、信息论、协同语言学等指导理论和观点,运用书面汉语“词熵”的原理和计算方法,对经过分词、标注词性的中介语熟语料进行词频、词熵统计分析。本研究从熵的角度考察了留学生作文在“国别”和“体裁”两方面词汇使用的共性与差异,并在此基础上从词汇计量研究层面的词汇多样性、词汇重复率、词汇独特性和高频词等方面对留学生作文词汇使用情况进行了描述分析。统计结果显示,词熵在不同国别和不同体裁的留学生作文之间有的存在显著性差异,有的不存在差异。其中(1)日、韩两国籍作文词熵不存在显著性差异,其余国籍词熵均存在显著性差异;(2)记叙文体与议论文体词熵不存在显著性差异,书信文体与记叙、议论文体均存在显著性差异。通过其他词汇测量指标进一步发现,文本的词熵存在显著性差异,则两个文本的词汇使用丰富度上也存在差异;文本词熵不存在显著性差异,则文本的词汇使用情况也相差不大。本研究的意义在于,首次从信息熵的角度,并分别从写作者的国别和写作体裁两个方面对二语习得语料库统计分析。最终发现,词熵所反映出来的词汇使用程度以及文本词熵的共性与差异,在二语习得者使用词汇过程中也可以体现出来,也就是基于词熵的二语习得的文本研究是可行的,这也为汉语词汇的习得研究提供新的角度和思路。
其他文献
证券化方式并不能把不良资产变成优良资产,只是对现金流进行重新包装和分配,而证券化处理后的不良资产却可以满足市场不同投资者的需求
期刊
研究了一种基于自相关运算的数字锁定放大器算法,讨论了该该算法的测量精度和采样频率等参数。仿真试验表明本文中的算法可用于当同频率参考信号不能获得时,低信噪比条件下正弦
4月12日,“碗若新生”2017年中国洗碗机行业高峰论坛暨苏宁易购首届洗碗机节开幕。苏宁厨卫更是斥千亿洗碗机补贴,以418为契机,进击洗碗机市场。作为本次洗碗机节上最新发布的核
我们注意到,零售业激烈的竞争不仅来自于一贯的选址争夺、开店速度较量等以规模为导向的竞争,在外资零售企业的带动下,正开始向更多层面展开。竞争的首要是在管理模式上回归
期刊
将木粉/聚乙烯复合材料进行硅烷偶联剂表面涂覆处理以改善其胶接性能.为探究胶接接头在水环境下的耐久性,利用傅里叶变换红外光谱(FTIR)和X射线光电子能谱(XPS),研究了水对表面涂覆处
通过1982~1998年对稻瘿蚊发生量的观察、调查和对照历年气象资料进行分析,明确了影响该虫发生量的主导因子是6~7月相对湿度。根据6~7月相对温度预测该虫发生量,经多年实践检验,证明简便可行。1影
文章通过对"十三五"规划中文化建设的重要论述的理解,结合出版行业面临的问题进行分析思考,提出了在新的历史起点上,必须以新发展理念引领文化建设,始终坚持公益性和经营性"
写作能力是一项重要的语言输出技能,体现着个人的思维能力和总体语言水平。然而,在我国,学生的英语写作能力一直是薄弱项,这与传统的写作教学模式不无关系。大部分学校的初中英语教师多采用背诵模板的方法进行写作教学。这种模式造成学生只会机械背诵,缺乏学习兴趣。随着计算机,信息传媒的发展,人们的交际方式和意义表达方式呈现出多模式化的特点。把语言文字作为主要交流手段的传统方式开始发生了变化,人们逐渐认识到图片、
禽心包积液-肝炎综合征(HHS)又名禽安卡拉病,1987年首次出现于巴基斯坦的安卡拉地区,是由Ⅰ群4型禽腺病毒(FAV-4)毒株引起的。高致病性FAV-4可感染各种禽类,各日龄的禽类对其
体育用品品牌"攻城略地"式的发展,让渠道商也进入了暗地的争战……家住广州石牌的陈先生非常喜爱体育类休闲服饰。前不久,出差半年的他从外地回来,突然发现,就在自家小区外不
期刊