基于语料库的汉语历时高频词对比研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ww20080808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词频统计是一种词汇分析研究方法,通过统计一定容量的语料库中每个词出现的次数,计算得到它们出现的频率,用以了解用词规律。词频统计在语言学、情报学、信息学和文献计量学等领域都有所运用。而在词频统计中,高频词是尤为重要的一类词。高频词是指在实际生活中使用频繁的一类词,它对于了解一种语言的使用和发展有着重要作用,具有一定的研究价值。本文所做工作,主要是根据不同的时间段建立不同的语料库,通过统计不同时间段语料库中的高频词,对比分析高频词的使用和发展情况,了解汉语发展的规律,并且尝试解释高频词使用情况的个别差异,以验证汉语发展的延续性和传承性,从而进一步揭示中文词频历时分布机理。文本一共分为六章:第一章为绪论,主要介绍了国内外关于语料库和词频研究的现状,简单介绍了本文的选题缘由、研究目的、意义、研究方法和研究思路以及文章组织结构。第二章主要介绍了汉语词语切分,包括它的基本定义,切分的重难点以及主要算法。同时,介绍了评价切分效果的三个标准:正确率,召回率,F指标,并以此为标准证明本文选择使用的分词软件准确性较高,具有可操作性。第三章主要介绍了如何实现词频统计,由于本文所使用的汉语语料库具有一定的时间跨度,根据汉语发展的规律将语料库分为两个时间段,根据两者的不同情况,使用不同的词频统计方法。第一个时间段为先秦到宋代,文言词多以单音节形式出现,字即是词,该时段中语料使用MyZiCiFrep字词频率统计工具,该统计工具能自动统计语料库中每个字出现的次数并且按频次的大小输出结果。第二个时间段为明清及明清以后,双音节词使用率提高,该时间段语料使用程序算法来统计词频,同时也通过算法来实现词频排序。本章最后介绍了本文所使用的相关词频算法。第四章是本论文的重点,也是本文的主要部分。本章首先简要介绍了本文语料库的语料来源,全部语料根据作品时期的顺序,分成先秦,两汉,魏晋南北朝,唐,宋,明清等六个不同的部分。选择TONP方法来确定本文高频词低频词分界。然后分析了从先秦到宋代的数据,制成一张词频对比表,通过全距对比和方差对比等方法发现大部分的高频词在语言发展中较稳定,波动较小。最后加入明清数据,对比从先秦到明清的高频词,利用EXCEL自带的数据分析工具中的“方差分析”,分析得出高频词序号与时间段的关联较小的结论,说明大部分高频词不会随着时间的变化有较大的变化,这也就能证明语言的发展具有一定的传承性和延续性,高频词的使用情况具有一定的相似性。第五章主要将英语和汉语两种不同的语种做了个简单的相关分析,发现英汉使用率前1000个词之间存在着一定的线性关系,两者之间有一定的正相关性,从而验证了语言的发展具有一定的相似性和共同点。第六章为总结与展望,总结了本论文的主要内容结论,并指出本文中存在的不足以及对将来的进一步研究的展望。
其他文献
简要的阐述了唐朝服饰的基本形制,并为此进行了分析和初步探讨,旨在探求中国传统的历史服饰文化现象.
福特的6速自动变速器采取了和以往不同的电磁阀控制策略。以福特6F35变速器为例,它采用了3个常高电磁阀(LPC、SSB和SSD),3个常低电磁阀(SSC、TCC和SSA),和1个开关电磁阀(SSE)
汉语作为第二语言教学,最基本的目标就是培养学习者运用汉语进行交际的能力。口语教学在对外汉语教学中无疑占据着非常重要的地位。相对而言人数庞大的韩国汉语学习者当中,韩
当一个孩子出生后,别人都会问他的父母“男孩儿还是女孩儿”,可见对入进行性别区分的重要性。“男”、“女”是汉语中的一对常用表人性别词,不论是在我们的日常交际还是文学
随着电气化铁路在铁路运输中所占比重的不断增大和电压等级的不断提高,电气化铁路牵引负荷对电网的影响也随之增大。为了建立准确有效的电气化铁路牵引负荷模型以评估其对系
学校管理学网络课程建设是通过网络表现学校管理学的学科教学内容及实施教学活动的总称,包括学校管理学网络教学资源的建设和网络教学过程的实施两个部分。学校管理学网络课程
<正>新时期,慈溪接轨上海"天时、地利、人和"。为贯彻习总书记在浙江工作时作出的"八八战略"关于"主动接轨上海"决策部署,寻找"接轨上海、服务宁波、建设长三角区域性中心城
<正>急性酒精中毒是各级医院急诊科最常见的急症之一,发病急、变化快、病情重,可引起多脏器的损伤。在美国,摄入过量酒精引起的肝脏疾患已成为男性的第4大主要死亡原因,有报
随着发电厂、变配电站、石化冶金、矿井、通信以及高层建筑等各类直流设备用户的增多,为这些用户的制动、保护、信号以及照明等设备提供电源的直流电源系统的安全使用便越来
《說文解字》收錄籀文字形206個。本文以《說文解字詁林》,《隸定古文疏證》,《史籀篇疏證》,《說文解字六書疏證》,《金文詁林》,《金文大字典》,《增訂殷墟書契考釋》,《說