论文部分内容阅读
文本相似度计算和句子相似度计算在自然语言处理领域有着非常重要的地位,在信息检索、文本挖掘、问答系统等方面应用广泛。在老挝语方面,文本相似度计算和句子相似度计算的研究工作还处在刚刚起步的阶段,十分薄弱。随着我国与老挝在各个方面的交往日益密切与频繁,老挝语的信息化处理也在两国的经济文化交流中显得尤为重要和迫切,因此为了更好的顺应两国在政治、经济、文化等各个方面的发展,对汉老双语文本及句子相似度计算的研究是必要且不可或缺的。本文结合汉语并针对老挝语特有的语法、句法特征以及目前老挝语可比语料稀缺的问题,主要对汉老双语文本及句子相似度计算的方法进行研究。主要研究成果如下:(1)构建实验级别老挝语语义词典。由于互联网上没有提供老挝语版的Word Net下载,对此,本实验室联合老挝留学生自行设计了一个简易的老挝语语义词典,对应Princeton大学开发的Word Net,把老挝语单词作为最基本的单位,考虑到一个句子的主要成分,因此被分为名词和代词(通常做主语或宾语)还有动词和形容词(通常做谓语),并被各自组织成一个同义词网络。通过两年的时间,实验级别的老挝语语义词典已经小有规模。(2)基于语义词典的汉老双语文本相似度计算。本文提出的文本相似度只是计算粗粒度的双语文本的相似度,并达不到词,句子和段落对齐,在此之上利用了中文概念词典和本实验室自行构建的实验级别老挝语语义词典与Princeton开发的Word Net对齐的特点,通过上述实验得到的实验级别的老挝语义词典,首先对汉老文本进行预处理,利用汉语和老挝语分词工具,将汉语和老挝语文本分词并过滤为名词序列,然后利用词与词之间的语义距离对名词序列进行消歧,接着利用语义词典将消歧后的双语名词序列映射到数值空间,转换为与语义无关的整数,最后利用Dice系数计算汉老双语文本的相似度。实验结果表明,本方法在一定程度上提高了双语文本相似度计算的准确率。(3)基于关系向量模型的汉老双语句子相似度计算。从上一个研究点中,得到比较粗粒度相似的双语文本,从这些文本中抽取句子,计算双语句子相似度。本文提出了一种在空间向量模型的基础上利用北大的中文概念词典和本实验室设计的实验级别的老挝语语义词典同时考虑双语的句子结构(关键词的位置)和语义信息的关系向量模型。首先将一个汉语句子和老挝语句子利用分词工具先进行分词,然后选取关键词。所以在计算句子相似度时,不同于文本相似度计算只考虑名词,为了最大限度的保证语义完整,这里需要将一个句子中的所有名词、代词、动词和形容词都选取出来作为关键词,这样做既最大限度的保留了句子的整体信息,又降低了算法的运行时间。然后将这些关键词映射到数值空间,转换为与语义无关的整数,最后进行汉老双语的句子相似度计算。本文提出的关系向量模型在一定程度上提高了汉老双语句子相似度计算的准确率。