论文部分内容阅读
“呦呦鹿鸣,食野之蒿”,屠呦呦因青蒿素而蜚声海内外,而其取得成功之助力则是源于中医古籍之探索和研究。信息科技日益崛起,习近平总书记依然高度重视和弘扬中国人民最为深厚的软实力,即中国优秀传统文化。因此,古籍之理解,古籍之研究,不仅对于继承和发扬中国传统文化尤为重要,而且对于提高个人品性和生命境界具有重要意义。但是,中国汉语的历史,绵长而璀璨;汉语语义的演变,纷繁而复杂,古文理解愈发困难,而语义演变正是其根本原因。汉语的语义演变不仅是语言演变的一个重要方面,而且也是历史语言学的一个重要研究领域。但在古汉语语义演变的研究中,仅仅凭借传统语言学的研究方法,可谓是独木难支。古代汉语语义演变的研究不仅需要科技的助力,而且需要数据的支撑。而我们正是兼而有之。在传统语言学研究的基础上,将统计学(统计分析)、计算语言学(分布式语义表示)与古籍文本数据的处理相结合,进行古汉语语义演变的研究,不仅可以集三者之所长,而且可以发现前所未有之规律,更是对于开创“计算训诂学”奠定坚实的基础。针对以上分析,本文利用至善繁体汉语语料库的古籍语料,同时结合相关的研究成果,具体开展了以下研究:1.基于统计分析的古汉语语义演变的研究。首先,采用基于统计汉语字频(词频)的研究方法,即针对自然语言信息具有数据丰富、复杂多样等特点,在汉语语言文字学的研究中通常采用统计分析的研究方法进行定性分析和定量分析,借以数据之间的数量关系来分析特定的语言现象,进而揭示其规律性。其次,采用基于统计汉语词性分布的研究方法,即针对语义演变可能伴随着词性演变的特点,通过跟踪每个汉字或者词语所服务的句法功能的变化而检测和量化其语义演变。实验表明:采用基于统计汉语字频(词频)的古汉语语义演变的研究方法对于检测特定事件和特定实体的流行而引起的语义演变具有较好的效果,而采用基于统计汉语词性分布的古汉语语义演变的研究方法对于检测虚词(功能词)的词性的演变具有较好的效果。2.基于分布式语义表示的古汉语语义演变的研究。首先,采用基于计数的分布式语义表示的方法,即采用高维度的稀疏矩阵表示的显式词向量表示(PPMI)和在此基础上进行降维的奇异值分解(SVD)的方法,进而考察汉语的深层语义与其语义演变之间的关系。其次,采用基于预测的分布式语义表示的方法,即基于SGNS-INC增量训练的方法和基于SGNS训练的方法,在提高词向量的训练速度和改善词向量的训练质量的基础上,具体分析汉语的每个汉字或者词语与其上下文之间的深层语义关系。实验表明:在古汉语语义演变的历时研究中,我们发现在先秦时期和秦汉时期的交替之际,语义演变的现象异常突出;而在魏晋六朝时期和隋唐时期的交替之际,语义演变的现象较为突出。3.基于分布式语义表示的古汉语语义演变的类型分析。文化的演变是指因自然环境或者社会环境的变化而引起的演变;而语言(学)的演变是指因语言系统内部的各种因素的相互关系的变化而引起的演变。因此,可以通过检测其具有代表性的名词(因科技的发展而引起文化的演变)和动词(因规则的改变而引起语言的演变)的语义演变来进行文化演变和语言(学)演变的类型的简单区分。实验表明:采用全局方法和局部近邻方法可以将名词和动词的语义演变进行简单区分,进而将文化演变和语言(学)演变进行简单区分。综上所述,本文的主要贡献可以分为两个方面:1.跨学科应用。采用基于统计学(统计分析)的古汉语语义演变的研究方法,可以将自然语言信息进行定量分析,进而通过其频率跃变或者词性变化来检测其是否发生语义演变。而采用基于计算语言学(分布式语义表示)的古汉语语义演变的研究方法,可以更加有效地利用自然语言的深层语义信息,进而通过其在朝代或者时期演变的过程中的上下文或者其本身的相似度的变化检测其是否发生语义演变。2.演变类型区分。根据文化演变和语言(学)演变动因和机制的不同,我们通过检测其具有代表性的名词和动词的语义演变来进行文化演变和语言(学)演变的类型的区分。总而言之,采用基于统计分析和分布式语义表示的研究方法进行古汉语语义演变的研究,可以统筹全局,整体把握时代背景与古代汉语呈现出来的语言现象之间的关系(如朝代更替、古文运动等引起语言文化的演变)。这不仅在一定程度上克服了传统语言学研究方法的以局部的视角剖析研究对象的特征,或者仅局限于案例研究的弊端,而且拓展了古汉语语义演变研究方向的新视野,开辟了古汉语语言学研究领域的新思路。