论文部分内容阅读
近十年来,随着计算机科学理论的发展,计算语言学在机器翻译、语音识别、人机交互等诸多方面发展迅猛。但是如今的机器翻译或语音识别等人工智能产品仍然存在着自身局限性。以机器翻译为例,它对于大篇幅的整句或者逻辑语义相对复杂的文本,翻译质量令人堪忧。其根本原因在于机器对于语篇的理解是建立在代表语言元素的二进制信息和简单的算法基础上的;而人对于语篇的理解则是建立在对于小句关系的理解之上的。另一方面,丁建新、陈安玲等人对大量语篇体裁的统计研究明确了不同语篇体裁中小句关系分布特征具有不同的特点,这为基于小句关系的语篇体裁鉴别提供了理论基础。因此本论文以韩礼德系统功能语言学中的小句关系为切入点,在广泛文献调研的基础上,充分吸收韩礼德系统功能语言学中关于小句复合体系统理论的优点,论述了该理论下小句关系分类框架存在的不足,并结合国内学者程晓堂对小句关系分类框架的改进意见,首次提出了小句关系特征矩阵和语篇相关度的概念,并在这两个概念的基础上提出了基于小句关系定量分析的语篇测量方法。小句复合体作为语篇中最高级别的语法单位,其内部各个小句之间相互作用,存在多种复杂的关系,这些关系蕴含了丰富的信息,而小句关系特征矩阵作为语篇中小句关系分布特征的直观体现,我们可以从中解读出关于该语篇的丰富的语言学意义。语篇相关度则是从统计学的角度给出了不同语篇体裁之间相关程度的量化分析方法。由语篇相关度概念引申,我们给出语篇差异这个概念,它从另一个侧面反映了不同语篇体裁之间的小句关系分布特征的差异性,并且能够直观地给出具体的差别所在。这些概念和方法的提出,使得我们可以借此对机器进行大规模的语篇数据训练,从而实现大规模语篇材料的自动体裁判别和分类的功能。本论文以定量分析为主,结合统计分析、案例分析、演绎推理、综合归纳、文献检索等诸多研究方法,以不同语篇作为样本数据,其对应的小句关系特征矩阵作为模型参数进行研究。首先对语篇中小句关系类别进行分析得到小句关系特征矩阵,进而对小句关系特征矩阵作误差校正预处理和统计学相关性检验,最后得到语义相关度、修辞相关度和投射相关度的加权平均值,即语篇相关度,可以以此定量地表示不同语篇之间相似性程度。这样便建立了一种基于小句关系定量分析的系统化的语篇测量方法。经过多个语篇案例的实际检验,验证结果与预期符合很好,充分说明了该理论的合理性、正确性和可行性。本论文所提出的基于小句关系定量分析的语篇测量方法不仅可以在微观上推断出语篇本身蕴含的丰富的语言学信息,而且可以在宏观上得出不同语篇体裁之间的相似性程度,并给出定量化的描述。该语篇测量方法在机器语篇分析中具有很强的可操作性和应用价值,为科学、客观、系统的语篇分析研究开拓了新的研究思路。