基于依存分析的语义层次识别

来源 :科学与财富 | 被引量 : 0次 | 上传用户:zous111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:依存句法分析是分析句子各个成分之间相互支配与被支配关系,反映的是句子各成分的语义修饰关系。本文通过对句子中干扰成分过滤和专有名词进行替换技术来提升依存句法分析的准确率,然后对依存句法结构进行抽取与调整,并引入基本语义判别模型抽取句子的基本语义结构,通过基本语义结构的各个修饰成分进行调整得到句子的首层语义结构,然后利用首层语义结构中的每个词的修饰成分递归对句子所有成分进行调整,从而得到整个句子的语义层次结构。得到了句子的首层语义结构与嵌套语义结构,便可以从各个层次分析句子蕴含的语义,为准确的把握用户表达的需求,理解用户的真实意图打下扎实的基础。
  关键词:语义分析;依存分析;专有名词替换;首层语义;嵌套语义;语义层次;
  引言
  语义指语句包含的概念和意义,语义不仅表述事物的本质,还表述事物之间的因果、施事和逻辑关系。语义层次指的是语句中语义的嵌套关系和修饰关系。句子语义层次识别是发现句子的基本含义和嵌套语义的过程。通过句子语义层次识别能够让机器清楚的知道用户各层次的语义关系,从而准确的把握用户的需求,更加透彻的理解用户的真实需求。
  目前国内外针对语义分析的研究方法大致可以分为:基于词语语义知识规则(如语义词典、语言知识库、本体库等)的语义分析、基于统计的语义分析和基于机器学习的语义分析以及多种方法结合的分析方法。文献[1]和文献[2]是基于统计的思路分析文本表达的语义信息。此外董振东构建的知网知识库[ ],是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。国外经典的框架语义学 [9]是美国菲尔墨提出的一种经验主义语义学,它提供了描写词语意义和语法结构意义的一种途径。
  虽然目前语义分析技术较多,但是几乎都是针对句子的语法成分或句法结构 [6]进行分析,对于嵌套句或复杂语句结构的理解存在一定的缺陷。因此准确的获取句子的语义层次具有重要的研究意义。本文一方面利用干扰词过滤和专有名词替换方法来处理句子中的特殊符号从而提升依存分析的准确率,另一方面基于依存分析得到的依存句法结构,对其进行抽取与调整,得到句子的语义层次结构。语义层次结构反映了句子各个层次的语义成分组成方式,能够准确的把握句子的各层次语义和真实意图。
  1.语义层次识别系统介绍
  语义层次识别整体流程如图1所示,在进行依存分析前,首先对句子进行干扰成分过滤和专有名词替换的预处理操作,排除进行依存分析时受到句子中特殊字符和数字的干扰导致依存句法结构错误,从而提升依存分析的准确率。在得到句子依存句法结构后结合训练得到的基本语义判别模型提取句子的首层语义结构,再对首层语义中每个节点的修饰成分进行抽取与调整,得到节点与修饰关系之间的语义层次关系,再对每个子节点抽取其修饰成分并递归进行调整,直到句子中所有节点都处理完毕为止,这样便得到句子的语义层次结构,也得到句子的首层语义结构和嵌套语义结构。
  1.1术语定义
  ① 基本语义:指不包括嵌套成分和修饰成分的简单句。
  ② 专有名词:指具有典型规则的英文符号或数字组成的实体名词,如身份证号、网址、邮箱、IP地址等。
  ③ 核心节点:指依存关系中的核心关系所代表的词语。
  ④ 关键节点:指当前语义层次中基本语义结构中包含的节点,不包括通过依存关系调整层次后上移的节点。
  ⑤ 父节点:指当前词语的依存关系指向的词语。
  ⑥ 子节点:指依存关系中所有指向当前词语的词语。
  1.2 预处理模块
  本文提出一种对句子干扰成分过滤和句子专有名词进行替换的预处理技术来提升依存分析的准确率,首先利用专有名词规则库(专有名词规则库是事先整理好的关于各种类型专有名词的匹配规则)对句子进行扫描,提取出句子中包含的各类型专有名词成分,然后对句子中的干扰符号(通过干扰符号库识别)进行过滤。具体步骤如下:
  a.扫描句子中每个字符判断是否是干扰成分(干扰成分通常指表情符号,无意义的符号,通过干扰符号表来进行匹配识别);
  b.將句子中扫描出的干扰成分进行删除;
  c.利用专有名词识别规则对句子中的专有名词进行识别;
  d.将句子中的专有名词替换为专有名词类型名;
  e.通过专有名词在句子中的前后词判断替换后的句子结构是否存在歧义;
  f.若替换后的句子存在歧义,则还原成删除干扰成分后的结构;
  1.3 基本语义判别模型
  本文采用SVM分类器来对句子中每个词是否属于基本语义进行判断,以词的词性以及依存关系和子节点依存关系构成输入向量,通过训练用例对句子基本语义结构进行学习,得到基本语义判别模型,主要流程如图2所示。具体步骤如下:
  a.对训练用例进行依存分析得到依存句法结构;
  b.将训练用例中每个词的词性和依存关系以及子节点依存关系构成输入向量
  c.利用SVM分类器(也就是本发明中基本语义判别模型所使用的分类器)对输入向量进行训练学习;
  d.对得到的判别模型进行测试、调优;
  e.得到判断句子中每个词是否是基本语义的判别模型。
  1.4 首层语义抽取模块
  首层语义是句子的主要含义表现,因此即要准确的获取关键词语又要保留特定的表达方式才能准确的反映句子的含义。本文首层语义抽取流程如图3所示,通过依存句法结构和基本语义判别模型抽取句子的基本语义结构,再对基本语义结构中的词提取其子节点,并根据子节点词性和节点间的依存关系对句子语义结构进行调整,进而得到句子的首层语义结构。具体步骤如下:
  a.遍历整个句子的依存句法结构,抽取首层语义中每个节点的子节点。
其他文献
摘 要:随着我国人民生活水平的提高,人们对其所居住的环境要求也越来越高,而近几年智慧社区的迅猛发展也给居民带来了许多便捷的服务与智能化。比如当你外出旅游家里没人的时候,你只需要连上网登入你的后台管理系统就可以知道家里各个地方的温度、空气质量以及是否有人进入过你的住宅。一旦发现有人以不正当方式进入你的家庭,就会启动报警装置报警。当你家庭的天气不错的时候,你照样可以通过这个后台管理系统来控制家庭窗户的
期刊
摘 要:随着科学技术水平不断提升,数控加工工艺不断的普及。为保证机械制造的工作效率,提高编程速度,优化数据程序设计。本文从通用机床加工, 分析了数控加工的工艺特点和适用范围。  关键词:数控加工;工艺;特点  概述  数控加工是机床零件加工方式的一种,依托信息技术,在计算机技术的基础上对机床零件进行加工控制,能够解决零件加工过程中存在的各種问题,并且零件加工的精度和准确性也要比传统的机床加工高得多
期刊
摘 要:随着科技和传媒业的快速发展,全媒体时代对播音与主持艺术专业人才培养的要求也发生了变化。以微信公众号为代表的新媒体模式盛行,他的变化和发展也在无时无刻影响着播音与主持的创新和实践,面对如此严峻的形式,要不断反思发现问题,因此我们在培养播音与主持人才上也要与时俱进。  关键词:播音与主持专业;微信公众号;融媒  传媒行业是一个与时俱进的行业,播音主持专业的学生要想在社会中立足,就必须要紧跟时代
期刊
摘 要:在信息技术和互联网技术的迅猛发展的宏观趋势下,我国的互联网保险经历了萌芽、探索和不断发展、成熟的过程,具有去中心化、开放透明、匿名参与、去信任化、不可篡改等特征的区块链技术为我国的互联网保险的发展提供了适宜的网络环境和技术平台支持,并且改变了产品服务创新和行业监管模式。  关键词:区块链技术;互联网保险  自从20世纪90年代以来,在信息技术和互联网技术的迅猛发展的宏观趋势下,人们的社会经
期刊
摘 要:18世纪中叶前期是英国从封建社会向资本主义社会过渡、从传统的农业社会向近代工业社会转变的时期。在这个转型过渡过程中,工业革命使英国在经济发展方面发生了巨大而深刻的變化,一跃成为近代首先称霸世界的头号工业强国。中国改革开放已将近40年,且已经到了全面建成小康社会的决胜阶段。作为世界第二大经济体,我们要借鉴国外历史经济发展的变革经验,这对于主动转型进一步推动我国社会主义市场经济发展以及把我国建
期刊
摘 要:伺服电机是自动化系统的核心部件,交流伺服电机以其性能的优越性逐步取代直流伺服电机,成为伺服电机的发展趋势。基于此,本文概述了交流伺服电机,阐述了交流伺服电机控制原理,对交流伺服电机在自动控制系统中的应用及其发展进行了论述分析。  关键词:伺服电机;自动化控制;原理;发展  1 伺服电机简介  交流伺服电机大致上可分为两大部分,即转子和定子部分。其中,我们一般常用的鼠笼形转子和非磁性杯行转子
期刊
摘 要:民国时期河南省的反缠足运动一直以严禁为主线,成立河南省放足处,各县放足分处作为反缠足运动的主要机构,颁布一系列禁止缠足的条例,制订严厉的惩罚措施,将禁止缠足的成果作为考核官员的一项标准。河南省的反缠足运动经历了劝、禁并行,厉行严禁和法律制约三个阶段,在此过程中官方主导作用贯穿始终。  关键词:反缠足;河南省;妇女  前言  学界对近代河南妇女的放足运动缺乏深入的研究,只有极少数的文章或著作
期刊
摘 要:中央集权对社会自由的影响不同角度存在不同看法。一方面,从自由主义的角度而言,托克维尔在《旧制度与大革命》中认为中央集权的顽固辅之封建制度分离了社会阶级,毁灭了政治自由,阻碍了法国对于自由宪政的构建。另一方面,从乌托邦的角度而言,哈林顿在《大洋国》中认为中央集权有利于资源的合理整合与调配,促使人们免于物役与他人的强制,能将社会引向更广泛的自由。综合二者观点,虽有不同但也存在一定的相通之处。因
期刊
摘 要:人工智能是"互联网+"时代下中国发展战略之一,在信息、数据和知识处理方面具有很大的优势,有助于解决企业档案管理中的难题,实现档案管理的智能化,提高了档案管理的水平,增强了组织的竞争力。本文简要阐述了人工智能和人工智能技术的含义,对档案工作在智能化的趋势下发展趋向进行研究,希望推动档案行业的发展。  关键词:人工智能;档案;挑战  前言  人工智能(Artificial intelligen
期刊
摘 要:现代船舶除了具有运输货运这一基本功能,也担负起了海洋科考、资源开采、境外旅游甚至是巡逻防御等复杂工作,因此对船舶的电力系统自动化水平要求越来越高。电站是电力系统的核心,实现电站的自动化是实现船舶自动化的主要任务。本文结合实例简单介绍了现代船舶电站自动化管理的基本组成和功能。  关键词:船舶电站 自动化管理 基本组成和功能  随着世界经济得到了迅猛发展,各种类型的大型工作船被广泛应用在海洋勘
期刊