论文部分内容阅读
自然语言处理最根本的目的就是让计算机能正确处理人类语言,利用计算机对词语语义进行理解是自然语言处理中最为关键的问题。词义相似度计算作为语义理解的基础性工作已被广泛应用于词义消歧、机器翻译、信息检索、自动应答等各种领域。
目前词义相似度的计算方法主要分为两个大类:一类是通过具有一定层次体系的词典计算词义相似度;另一类是利用词语的上下文获取词义信息,从而计算词义相似度。第一类方法是将词语构建于一个具有层次关系的树形结构体系词典中,通过计算整个体系中两个目标词之间的路径、上下位关系、属性之间的关系来表征目标词之间的词义相似度。这种方法过分依赖词典的设计,需要完备的层次关系,因此受人的主观影响较大。第二种是利用语料中目标词上下文词语作为目标词词义的表示,通过计算两个目标词上下文之间的关系来确定两者之间的相似度。这类方法受上下文影响较大,同时会有数据稀疏问题。
本文针对这两种方法的优缺点,通过词典对上下文词语的概念提升,提高了目标词词义的表示程度,从一定程度上缓解了向量空间模型中的数据稀疏问题,并起到良好的降维效果。同时,通过利用上下文词语获取词义表示信息,从词语的实际使用环境出发,真实反映词语使用时的动态词义。在此基础上,本文还将相对词频比运用于向量空间模型的特征选择中,进一步提高了词语相似度的准确性和合理性。
词义区分是自然语言处理的另一个重要内容,本文在构建词义相似度计算模型的基础上,将该模型运用到词义区分的计算中去。通过词语相似度算法改进K-means聚类方法,并取得很好的效果。
本文通过对目前词义相似度算法领域中理论、技术、应用等方面的研究与实践,提出了综合词典和上下文的新方法,为词义相似度计算的研究做了新的尝试。