基于语义分析的文本相似性度量研究及应用

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:wang540364472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似性计算是通过对文本的内容、语法、结构等因素分析,建立算法模型计算文本之间的相似程度,是文本信息处理的关键技术。目前,文本相似性计算已广泛应用到智能检索、自动问答、文本查重等众多领域。部分文本相似性计算模型仅从统计意义上对文本相似性进行分析,对词语间携带的语义关系考虑不充分。针对这个问题,本文重点研究了如何运用知识图谱中所包含的语义信息来度量文本相似性并将其应用于文本检索领域。具体工作内容如下:(1)优化了基于word2vec的语义相似度模型。首先从词频、词性和位置对文本词汇进行加权处理,降低空间向量模型(Value Stream Mapping,VSM)中文本词频对相似性计算的影响。其次,引入word2vec中的Skip-Gram模型,从语义层面将相似词语的语法以及语义联系学习到词向量中,实现基于语义分析来度量文本相似性。最后与VSM模型和知网语义模型进行对比分析,实验证明,在最好情况下本文采用的方法相较于知网语义模型在执行时间上提升近3倍,相较于VSM模型准确率提升44%。(2)在语义理解的基础上构建了核领域的中文知识图谱。对批量下载的文本预处理后,对每篇新闻稿的书目部分进行语义标注,获取核领域概念、属性、实体间的关系,实现了核领域知识图谱的构建。(3)研究基于知识图谱的文本相似性度量方法。对于一个包含众多实体及实体间关系的知识图谱,判断实体间的相似度是提高文本相似性计算准确率的关键。本文采用一种通用的实体相似度计算方法,通过清洗噪声数据,从实体对所包含的不同属性值来度量实体间的相似性,提高文本相似性计算准确率。(4)将知识图谱与优化后的语义相似度计算方法相结合,构建核领域文本相似度计算方法,实现了一个核领域相关信息的检索系统。本系统在输入检索词时,会根据知识图谱给出相似检索词,借助知识图谱的语义关系,搜索引擎能够在一定程度上理解用户检索需求,对比传统的数据库检索及倒排索引检索方法,本系统在一定程度上良好地过滤了与检索条件不相关的文本信息,实现了语义检索功能,对信息检索服务具备一定的应用价值。
其他文献
<正>客家与客家文化这两个词,现在大家都很熟悉。因为报刊杂志上经常可读到谈客家和客家文化的文章,也经常有某地举行客家联谊会、客家学术讨论会的报导。但是若问到底什么是
<正>"氤氲缭绕的烟雨湖边,羽色粉红的朱鹮款步而至,时而展翅掠过血色夕阳,时而以赤色脚掌轻打涟漪,恬静唯美、优雅高贵……"这令人心醉的诗意画面展现在国家大剧院歌剧厅舞台
《白鹿原》自1993年发表以来,就在文学界和社会上引起了强烈的反响。《白鹿原》是一部富有哲学意味的史诗,它镌铸在文学史中,永远地具有活的生命和灵魂。本文试图通过白鹿原
建立三维有限元模型对软土地区某中心岛顺作、周边逆作的超大型深基坑进行分析,计算中假定土体为横观各向同性体,考虑土与结构的共同作用以及土体分层、分区开挖和支护结构分
目的:观察手法牵伸联合肌电生物反馈疗法治疗脑卒中患者足下垂、内翻疗效。方法:选取40例脑卒中后足下垂、内翻患者,随机分为治疗组和对照组各20例,两组患者均接受常规药物和基
针对太阳能储热系统容量配置进行设计优化。对相同地区建设的同规模太阳能光热电站,在储热时间从0变化至8h的情况下,分析此光热电站的SCA回路、年发电量、占地面积、镜场投资
工业机器人是柔性制造系统的关键模块,但故障率高且故障十分隐蔽,在很大程度上限制了柔性制造系统的普及应用.采用故障树分析法和Petri网理论相结合的办法,通过建立工业机器
王实甫的《西厢记》充满了创造精神 ,他所张扬的“有情” ,极具民主思想意义
介绍了库区超大面积钢纤维混凝土结构层、骨料耐磨面层一次成型的特殊地坪综合施工技术以及施工中为防止地坪沉陷而采取的相应技术措施。
上世纪70年代磁共振成像(MRI)首次应用于人体诊断。作为一种非侵袭性的医学成像手段,MRI具有空间分辨率高、深层组织穿透性强以及无辐射损伤等独特的优势,引起了分子影像领域研究人员的广泛关注。含钆MRI造影剂是一类能够增强成像清晰度和对比度的体内诊断试剂,能够极大提高质子的弛豫速率、缩短弛豫时间。然而,临床上常用的小分子造影剂,如马根维显、普海司等普遍存在弛豫率低、选择性差以及成像效果不足等缺陷,