论文部分内容阅读
信息时代飞速发展,带动世界变成移动化,智能化。信息数据的爆炸式增长,推动术语学也在不断更新与发展。术语数据规模的增长,信息文化的丰富,促使术语概念含义逐渐多样性。术语概念含义的多样性给国际标准组织ISO制定术语标准文件时,带来极大的困难;同时国际术语专家急需一个术语推荐系统,实现各国术语概念更新及制定工作同步进行。术语的语义相似度计算方法对其它学科的发展具有基础性作用,如信息检索,机器翻译,人工智能等,研究人员不断对其进行更新优化,以适应新的需求。目前的计算方法多数基于数据的组织形式进行划分,如基于结构化数据和非结构化数据两种方法。数据的结构化组织形式包括本体、Hownet、WordNet等;非结构化组织形式,往往是大规模的数据,没有固定的结构形式。非结构化数据的语义相似度计算是通过机器学习进行模型训练,然后调用模型进行计算。本文主要通过对基于本体的结构化数据及大规模非结构化数据的术语语义相似度计算方法进行研究及应用,主要包含以下内容:(1)基于结构化数据的术语语义相似度计算方法大多不能兼顾各种影响因子,或者根据专家经验确定各因子的权值,造成计算不准确等问题。因此本文对基于本体的混合式语义相似度计算方法改进,借鉴模糊优化排序思想确定不同因素的权值,提高了计算的准确性。同时将本方法应用于术语推荐工作中,在术语专家进行术语推荐前,需要对推荐术语进行语义相似度计算,判断其在术语标准文件中是否存在同义或近义词,然后将其提交到术语推荐系统中,进行术语文件的更新。(2)随着大数据时代的到来,大规模非结构化数据语料的术语语义相似度计算方法逐渐成为研究热点。在海量数据中提取出术语的语义相似词并进行可视化展示,是本文的另一个研究重点。对于大规模非结构化数据的语义相似度计算,本文通过基于词向量的术语语义相似度计算方法,利用Word2vec对语料进行模型训练,将语料库中的文本用词向量进行表示。通过词向量进行语义相似度计算,得到术语的语义相似词。其次,调用Prefuse组件对语义相似词的关系网络进行可视化展示,这样方便术语工作者挖掘术语之间的潜在关系,同时为后期的知识图谱的绘制工作奠定基础。