基于语义相似度计算的术语推荐与可视化

来源 :聊城大学 | 被引量 : 1次 | 上传用户:danielliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代飞速发展,带动世界变成移动化,智能化。信息数据的爆炸式增长,推动术语学也在不断更新与发展。术语数据规模的增长,信息文化的丰富,促使术语概念含义逐渐多样性。术语概念含义的多样性给国际标准组织ISO制定术语标准文件时,带来极大的困难;同时国际术语专家急需一个术语推荐系统,实现各国术语概念更新及制定工作同步进行。术语的语义相似度计算方法对其它学科的发展具有基础性作用,如信息检索,机器翻译,人工智能等,研究人员不断对其进行更新优化,以适应新的需求。目前的计算方法多数基于数据的组织形式进行划分,如基于结构化数据和非结构化数据两种方法。数据的结构化组织形式包括本体、Hownet、WordNet等;非结构化组织形式,往往是大规模的数据,没有固定的结构形式。非结构化数据的语义相似度计算是通过机器学习进行模型训练,然后调用模型进行计算。本文主要通过对基于本体的结构化数据及大规模非结构化数据的术语语义相似度计算方法进行研究及应用,主要包含以下内容:(1)基于结构化数据的术语语义相似度计算方法大多不能兼顾各种影响因子,或者根据专家经验确定各因子的权值,造成计算不准确等问题。因此本文对基于本体的混合式语义相似度计算方法改进,借鉴模糊优化排序思想确定不同因素的权值,提高了计算的准确性。同时将本方法应用于术语推荐工作中,在术语专家进行术语推荐前,需要对推荐术语进行语义相似度计算,判断其在术语标准文件中是否存在同义或近义词,然后将其提交到术语推荐系统中,进行术语文件的更新。(2)随着大数据时代的到来,大规模非结构化数据语料的术语语义相似度计算方法逐渐成为研究热点。在海量数据中提取出术语的语义相似词并进行可视化展示,是本文的另一个研究重点。对于大规模非结构化数据的语义相似度计算,本文通过基于词向量的术语语义相似度计算方法,利用Word2vec对语料进行模型训练,将语料库中的文本用词向量进行表示。通过词向量进行语义相似度计算,得到术语的语义相似词。其次,调用Prefuse组件对语义相似词的关系网络进行可视化展示,这样方便术语工作者挖掘术语之间的潜在关系,同时为后期的知识图谱的绘制工作奠定基础。
其他文献
水生态文明建设是国家水利部提出的水资源从"利用"向"和谐"转变的重要工作思想。聊城市地处京杭大运河与黄河交汇之处,面临着"南水北调东线"与"山东西部经济隆起带建设"的机
<正>2005年11月3日,德国A公司与宁波B公司签订听装桔子罐头买卖合同,约定由宁波B公司向德国A公司提供约定数量与规格的听装桔子,FOB宁波4.50美元/托,根据买方的出货
本文介绍了强毒性植物醉马草的植物学、生物学和生态学特性。论述了家畜的中毒症状及其防治措施,以及减少和清除醉马草的方法。
贮存稳定性是改性沥青的关键技术性能之一.目前SBS改性沥青的贮存稳定性较差,限制了其在水利工程中的应用.本文以改进掺配工艺为主要途径,采用母体法解决了SBS改性沥青贮存稳
在修理电冰箱、冷藏柜、空调器等制冷器具时,都离不开充灌制冷剂。在没有定量加液器的条件下,对于初学维修者,不容易准确掌握充灌量;对充灌制冷剂之后出现的一些现象也不易判
国务院批复的福州新区,涉及多个行政区和已有工业园区、开发区的协调。未来运作体制如何理顺,避免内耗,是当前非常紧迫的课题。我国浦东新区开发早期也是涉及多个行政区,当年
<正>本刊讯(记者周玉清)10月19~21日,由西南大学承办的中国学位与研究生教育学会师范类工作委员会2017年工作会议在重庆市召开,来自52个单位的近130名代表参加了会议。会上,
<正>在移动业务高度普及的今天,移动新发展用户主要来自存量市场,而换机是用户换号的重要时机,因而运营商越来越多地通过合约、终端补贴来寻求移动用户的发展。各类终端零售
利用星敏感器进行白天大气层内观星,首先要解决的问题是强天空背景的干扰。通过对白天天空背景和不同光谱恒星的特点进行分析,提出了光谱滤波和偏振成像加形态学滤波和多帧图
目的:研究鼠衰老过程中口腔颊黏膜上皮厚度的改变,为口腔黏膜衰老模型的后期建立提供自然衰老数据。方法:常规饲养雄性Wistar大鼠至3月龄、12月龄和24月龄,分别作为自然衰老