论文部分内容阅读
语义的不确定现象在自然语言中普遍存在,是自然语言处理的一个重点及难点问题。近年来,语义排歧技术得到了快速发展。然而,当前学者的研究范围主要集中于语义较为明确的实义词汇,对于英语情态动词的研究则集中在表层语义。但英语情态动词具有语义模糊,对语境敏感等特征。因此,利用跨学科方法研究影响英语情态动词的深层语境因素对于智能语义排歧具有重要的意义。语义的不确定性包括级差,歧义和重叠。语义重叠是指语言在某一语境下集合了两种不同语义含义的语言现象。本文基于形式概念分析理论,采用属性偏序原理的方法,旨在分析造成情态动词may语义重叠的深层语境因素,从而达到对情态动词may语义重叠现象进行排歧的目的。本研究基于180万字语料库,利用Wconcord软件计算互信息,得出十二个语义特征。此外,本文从may的实际使用语境中提取出了十个可能影响其意义的语境因素作为句法特征。通过对得出的二十二个特征进行量化处理,生成情态动词may的语义排歧模型,其留一法自检正确率达到了96.25%,五倍交叉验证正确率达到了89.38%±3.57%,表明了本语义排歧模型的有效性。基于有效的语义排歧模型,本研究对情态动词may进行规则提取。通过分析属性特征和提取出的规则,发现在两种情况下may会出现语义重叠:1)当样本中may与主语和谓语的互信息均为高值时;2)当may所在话题表示某事件题的可能结果,同时隐含该事件会在将来发生时。因此,may的主语和谓语以及“话题与事件结果相关”和“话题的隐含时间为未来”是对may语义重叠具有较大影响力的深层语境因素。本文基于形式概念分析理论,采用属性偏序原理的方法分析造成英语情态动词may语义重叠的语境因素,从深层语义的角度为英语情态动词的语义不确定性研究提供了一种新思路。情态动词may语义重叠排歧模型的建立,不仅可以有效地识别不同语境下may的语义重叠现象,实现语义自动标注,还能进一步分析得出造成语义重叠的深层原因,从而为自然语言处理和语言学研究做出贡献。