论文部分内容阅读
在自然语言处理中,句子相似度的计算是一项重要而又十分基础的课题。它在自然语言处理中有着广泛的应用,例如,在基于实例的机器翻译中的元语言检索,信息过滤技术中的句子模糊匹配,面向常问问题集的自动问答系统的问句检索,以及拼写检查、数据清理等领域,相似度计算都是一个非常关键的问题。
本文利用HNC(概念层次网络)理论网络化的概念基元符号体系和完善的语句语义表述模式深入探讨了句子语义相似度计算的问题,并在此基础上完成了对算法的实现和结果的评价。
首先,本文介绍了词汇语义研究和句子相似度计算相关研究的流行算法和研究成果,进一步分析了现存方法的优点与不足,这为本文提出新的算法与解决方案提供了有益的指导。
词语的HNC符号标注是理解句子语义的一项重要的前导性工作,这就涉及到多义词的词义消岐问题。本文在对HNC理论的词汇语义描述方法进行深入研究的基础上,提出了基于HNC理论的词语搭配度计算方法,进而提出了新的词义消歧算法,完成了词语的HNC符号标注。
随后,本文在深入探讨HNC理论的语句表述模式和句类分析技术的基础上,提出了基于HNC的句子语义相似度计算的方法,完成了语义块识别算法、关键词抽取算法和相似度计算算法的设计与实现。
最后,本文在理论研究和算法设计的基础上,通过实验验证了算法的有效性,并对实验结果做了充分的分析。