论文部分内容阅读
形式概念分析是从形式背景中分析数据和提取规则的一种工具。形式背景由不同对象的不同属性构成。语义排歧作为自然语言处理的一个重要环节,是根据目标词所处语境自动识别其含义。通过语境信息来发掘影响目标词意义的属性,可以构建目标词汇的语义排歧模型,从而更好地探讨目标词的深层语义关系。属性特征研究是分析属性之间的关联性与独特性。其中类独有属性和类独有复合属性为语义排歧研究提供了新的视角。基于形式概念分析理论,本文构建了英语主情态动词的语义排歧模型,探讨了目标词的属性特征与语义的互动关系,研究了语境特征对目标词的排歧贡献度。本研究基于300万字的英语语料库,对五个目标词汇—CAN、MAY、MUST、WILL和SHALL的根意义和认识意义分别进行标注,通过计算互信息进而得到语义特征,并从8个可能影响目标词语义排歧的维度,提取19个句法特征,从而生成目标词的形式背景以及排歧模型。对目标词的排歧正确率依次为:87.00%(CAN)、93.34%(MAY)、96.33%(MUST)、92.00%(WILL)和96.11%(SHALL)。此外,本文提取了目标词的类独有属性和类独有复合属性,并分析了这些属性与目标词的意义关系。结果显示语义特征与目标词的不同意义有密切关系,句法特征对其影响各异。最后,本文研究了不同语境特征对目标词的排歧贡献度,结果表明语义特征对MAY、MUST和WILL的排歧影响更大,而句法特征对CAN和SHALL的排歧影响更大。其中,静态动词,否定句以及体特征对五个目标词的排歧贡献度都高,其它句法特征则分别影响不同主情态动词。被动语态主要影响MAY、CAN和SHALL;有生命主语主要针对MAY和CAN的排歧;主观性和有权威的主语对MAY和MUST的排歧影响更大。英语主情态动词语义排歧模型的建立以及不同语境特征对语义排歧的贡献度研究对其它英语情态动词的语义排歧研究具有借鉴意义,并为自然语言处理和多义词的语义研究奠定了理论和实践基础。