论文部分内容阅读
语义排歧是自然语言处理领域的重要课题,它对信息检索,机器翻译,文本分类,语音识别等研究具有重大意义。国内外已经有很多关于人工智能语义排歧的相关研究,名词、动词、介词等均有所涉及。而对于情态动词的语义排歧研究相对较少,本文将研究重点放在英语情态动词上,情态动词作为表达人类情感态度的词类,具有较强的语义不确定性和主观性,在语义排歧领域始终是一个较为棘手的研究难点。本文基于形式概念分析理论,采用属性偏序图和语料库的方法,研究英语情态动词can的深层语义结构。通过建立排歧模型,对can的深层结构和内部特征进行知识发现研究。深层语义结构是指当某一词语表达特定含义时所暗含的语义或语境因素,它通过分析句子的结构和语境而得出。本文以80万字的自然语言语料库作为研究基础,根据权威字典将can划分成4类含义,建立了训练集和检验集,生成了can的语义排歧模型,在此基础上,提取语义排歧规则,计算排歧正确率。最终的排歧正确率达到96.5%。这些数据证明本文的研究方法和研究步骤是科学有效的。然后,本文提出5类句法特征作为can的深层语义结构,通过研究句法特征之间的搭配和组合,以及句法特征和语义特征之间的关联性和独立性来探讨can的深层语义结构。本文从三个方面对can的深层语义结构特征进行分析,即属性偏序图,对象偏序图,和形式背景。通过探讨构成can的多个基本义项背后的属性特征,从而全方面的考察英语情态动词can的深层语义结构。本文有以下研究发现:首先,提出规则并判断出can的不同含义的语言特点,然后归纳出can在表达某一含义时所隐含的关键属性。其次,整体看来,语义特征的排歧贡献度大于句法特征,并呈现由语义特征到句法特征过渡的梯度分布格局,还发现了can的语义特征普遍性强,句法特征特异性强的特点。第三,总结出不同属性特征在不同含义中的搭配习惯和搭配趋势。本文利用形式概念分析的理论和方法对can的深层语义结构进行了系统全面的分析,从深层次对can进行知识发现研究。将情态动词的研究从表层延伸到深层,拓展了情态动词语义研究的视域。为复杂语义词的深层研究奠定了实践和理论基础。