论文部分内容阅读
歧义度是本文的核心论题,我们对其理论背景、定义、计算方法和影响因素做了系统论述。歧义度源于计算机词义消歧,词义消歧指用计算机自动给多义词标注一个确定的义项,是自然语言处理领域一个十分重要又十分困难的课题,也是当前研究的热点问题。注意到不同多义词的消歧结果差异巨大,有的多义词可以轻易得到很高的消歧正确率,有的词则难以实现。多义词这种体现在词义消歧难易程度的差异是由其内在语义属性决定的,这种内在属性就是歧义度。 在词汇语义学视角下,歧义度可以看做多义词的一个客观状况,它体现多义词义项间组合关系差异大小,在更深层次上体现了义项间语义关系亲疏远近的差异,多义词义项组合关系趋同则其歧义度高,反之就低,歧义度差异及其内在因素正可以从语义及其分布两个层面上解读多义词义项的关系。描写现代汉语名词的歧义度、分析造成词汇间歧义度差异的原因、探究歧义度研究的应用价值是这篇论文要解决的三个主要问题。 第一章主要介绍了本文选题的依据、研究对象、方法、步骤、特色、意义。 第二章主要介绍了词义消歧的进展与问题,着重论述了歧义度的提出、计算、在词汇语义学中的位置和基础理论。 第三章介绍了歧义度研究的课题设计,实现了1352个多义名词的词义消歧和歧义度计算,分析了多义名词区别性形式特征的内容和功能。统计发现歧义度最高为100%,最低为0,差异巨大,论文从义项间语义关系及其对应的区别性形式特征两个方面相结合的方法分析了这种现象的成因,这也是后面几章的主要内容。 第四章以统计数据为基础回答了语义距离与歧义度的关系。语义距离表示多义词义项间语义关系的亲疏远近,具体表现为多义词义项在语义分类词典内义类上的远近关系及概念语义相似性大小。统计发现,语义距离与歧义度之间存在密切负相关关系,根据歧义度与语义距离,将多义词义项间关系分为同义近义关系、同义类关系、跨义类关系三种类型,从宽计算同义近义关系可以并入同义类关系,同义类、跨义类是两种最重要的语义关系,本文分别建构了不同的分析框架,解释其内部词歧义度差异的原因。 第五章提取了同义类词[职业领域]、[构造]、[附属]等十几种重要的区别性义素及其与之对应的区别性形式特征,分析了义项间的区别性义素种类多少对歧义度的影响。 第六章针对跨义类词语义距离过大,不适于直接使用义素分析方法的特点,提取了语义相似、相关、无关三种语义关系模型,从义项历时联系、认知语言学角度解释了其歧义来源,分析了其内部不同词歧义度的差异和原因。 第七章以多义词语义距离和歧义度理论为基础提出了机用词典义项粒度设置的原则和方法,分析了其对歧义度的影响。“现汉”有义项粒度过细的特点,有24.10%的词语义距离为1,42.79%的词为同义类词,这些词义项间区别不明显,歧义度却很高,如去掉语义距离为1的词平均歧义度将由46.20%变为40.54%,去掉所有同义类词歧义度将变为35.68%。 第八章提出了歧义度分析对词义消歧的启示,认为在研究中应该重视词义属性,应该在分类的基础上有所侧重地分别研究。 第九章对全文的主要结论做了简单总结,简述了研究的不足和后续研究计划。 本文在词汇语义学层面上回答了词义与形式特征的关系,尝试了词义统计研究方法,构建了将词义与其形式特征相互印证的方法;在词义消歧领域,通过对歧义度和多义词义项关系的研究,一定程度上解决了机用词典义项粒度问题,提出了分类逐步解决词义消歧课题的思路,提出了用歧义度解决词义消歧算法评测难的方法。在研究过程中坚持以实际应用推动理论建构的思路,不盲从已有的研究模式,在继承前人研究的基础上提出了歧义度的新概念并建构理论系统解决了相关问题。