基于语义的文本关联性分析

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:taorong19880903
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅速增长,如何提高信息检索系统对自然语言的处理能力,成为了研究热点。文本关联性计算作为信息检索处理中一项基础性技术,直接影响着检索结果的好坏。而传统的基于词语字符串匹配的方法已经不适用于解决今天复杂的语言关联问题。因此,本文提出一种基于语义的文本关联性分析方法,以语义为核心,构建文本间的关键词网络,分析文本间的语义关联性。论文的主要内容包括:   1、建立关键词网络分析论文要素及结构,介绍关键词特征,详细说明了首位置特征、首次出现位置特征POS、词频、TF×IDF、词性、文档长度等特征的基本思想和计算方法。讨论了四种常用的关键词抽取方法,并结合已有资源,决定采用基于统计的关键词抽取方法。最后定义关键词网络,并定义关键词网络中的“核心词汇”节点、“枝叶词汇”节点及“潜在词汇”节点。   2、研究并阐释两种知识表示体系:知网和概念知识树知识表达体系。   在知网中,义原是基本表达单元,而义项是由义原所组成的。知网通过一种知识描述语言来对每个概念进行描述;在概念知识树中,概念是基本表达单元,而我们用属性、关系和行为三方面对概念进行描述。我们结合两种知识表达体系,对自动化学科词汇进行语义分析。   3、分析文本关联性首先提出基于知网的词汇间相似度改进算法。在义原间相似度计算的改进算法中,我们考虑了概念层次树的深度和概念层次树的区域密度对义原间相似度计算的影响。在义项间相似度计算的改进算法中,我们采用分类讨论的方式解决义原加权的问题。然后分析自动化学科词汇的结构,提出自动化学科词汇的语义确定的算法以及计算自动化学科词汇间相似度的算法。最后,结合关键词网络,提出文本关联性的语义分析算法。     
其他文献
无线传感器网络被广泛应用在军事和民事各个领域,随着应用范围的不断扩大,包含移动节点的应用逐渐增多,成为了无线通信领域的热点问题。传感器节点采用电池供电,且不易更换,
随着计算机网络技术的发展以及网络规模的扩大,计算机网络正承受着诸如黑客攻击等技术的威胁,因此计算机网络安全状况成为人们关注的焦点。入侵检测技术作为在防火墙之后保护
近年来出现一类具有链路长延迟、端到端路径频繁中断、能量缺乏供给、存储能力有限等特点的网络,该类网络无法直接应用现有Internet体系结构和协议。针对这些特点,研究人员提
符号计算是数学、计算机和人工智能相结合的一门交叉学科。随着计算机硬件性能的提高和软件功能的增强,人们通过计算机程序化地处理一些数学推理和代数计算问题逐渐成为可能。
随着互联网与信息技术的发展,电子商务的运营模式逐渐被人们所接受,但是传统的电子商务模式因其系统功能单一、交易成本高、自动化程度低等原因不能适应用户们的需求,因此人
大气电学是研究电离层以下的大气中所发生的各种电学现象及其生成和相互作用的物理过程的学科,是大气物理学的一个重要分支。大气电学的研究是当前世界各航天大国所面临的共
作为云计算的核心技术之一,虚拟化是计算机系统技术领域当前的研究热点。虚拟化技术的资源共享、对异构平台的抽象性、隔离性和在线迁移等特性,使之广泛应用于各个数据中心。然
数字家庭是当前世界各国正在努力探索的新型产业,发达国家已经在基础通信、智能家居和养老服务等方面取得显著进展。中国数字家庭虽处于起步阶段,但发展速度非常快。现阶段数
海量数据处理是云计算的核心技术之一。在互联网、商业和科学计算等领域,数据量已经达到TB甚至PB量级,并且数据在爆炸性地增长。分析海量数据能够给我们带来新的知识和深刻的洞
目前,XML已经在互联网环境中扮演着越来越重要的角色,逐渐成为各种各样数据的存储、交换和表示标准。为了满足查询和处理XML数据的需求,W3C发布了XQuery语言正式推荐标准,作