论文部分内容阅读
本体(Ontology)是共享概念的显示表述,它关注概念之间内在的语义联系。本体作为一种有效表现概念层次结构和语义的模型,被广泛地应用到众多研究领域。
现代汉语双音词构词问题是汉语研究的焦点之一,多年以来,有关的主流研究是以对现代汉语双音词的结构形式进行分析为主,而现代汉语双音词是汉语言词汇历时发展的结果,与现代汉语双音词关系最为密切的是先秦文献语言(王宁,1997),因而,研究现代汉语双音构词,必须研究先秦文献。而《说文解字》(以下简称《说文》)是我们研究先秦文献的重要资料。众多的研究表明,《说文》具备多维的、网状的文字形音义系统。受工作量和复杂度所限,用人工的抄录来实现它的全面系联,是不可能全面完成这一任务的。要实现这种系联,只有采用计算机信息处理技术。本体作为能够有效表现概念层次结构和语义的模型,有着较强的逻辑表达能力,值得我们尝试。
本文在概述本体研究现状和研究热点的基础上,结合《说文》训释自身的特点,开发了一套研究平台,研究了如何使用本体技术构建《说文》训释资源库,在此基础上,采用计算机图形学技术进行直训系联、展示,并和《现代汉语词典》收录的双音词进行对比分析,以探索《说文》训释词与被训释词的相关性和现代汉语双音词构词语素之间的切合规律。论文包括5个部分:(1)对本体研究进行了综述,阐述了本体的概念、特性、形式化表示模型;(2)对《说文》和现代汉语双音词构词的研究现状进行了综述,描写了《说文》训释的类型、特点,以及如何用本体的概念来描述《说文》训释;(3)描述了研究平台的开发,包括语料的处理、主要模块的建模、算法设计、系统的功能描述等:(4)列举了将语料入库后所得到的数据,通过《说文》训释词与现代汉语双音词的比较来分析统计数据;(5)本研究的不足之处和后续研究的思路。经统计,本文共提取《说文》直训3175条,直训经过系联分为796组,训释词和被训释词都在《现代汉词典中》出现的直训有1436条。训释词和被训释词组合后,在《现代汉词典中》出现的双音词有497个,其中非重叠式有390个,非重叠式的成词率为27.44%,平均系联构词距离为1.83。
《说文》训释、现代汉语双音词构词、本体都是当下研究的热门,但都是取其一端而没有将三者结合以来开展研究,本文采用本体和计算机图形学的相关技术,构建了开放式的研究平台,沟通《说文》训释和现代汉语双音词,既是探索《说文》训释和现代汉语双音词构词的规律,又是验证、推动计算机技术在语言学研究领域的应用。