基于深度神经网络的中文句法要素识别方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:tcliany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法要素指的是句子中的主语、谓语、宾语、时间等句法成分。句法要素识别可获取句子的语法信息和语义信息,支撑中文分词、知识图谱构建、机器翻译、自动问答等自然语言处理应用。由于中文字符是由表意符号组成的象形文字,字与词之间结构松散、缺少词的形态变化,谓语构词多样性且无法从形态学上区分识别。所以,中文句法解析和中文分词极易出错。加上中文句式表达形式灵活多变,存在宾语前置、倒装句等特殊句式,导致中文句子的结构性歧义比较严重。中文句法要素的识别一直是中文信息处理中的一个难点。本文针对中文句法要素识别问题,开展两个方面的相关研究。(1)制定句法要素标注规范。结合中文的特点,提出一种扁平化的中文句法要素标注规范。该规范定义了以谓语中心词为核心的六种句法要素(主语、谓语、状语、宾语、时间、地点)。重点标注句子的顶层句法结构,避免语言嵌套现象导致的结构歧义,并减少标注的工作量。根据提出的标注规范,标注了750篇文档,并免费发布标注数据集。(2)提出针对中文句法要素的识别模型。针对句法要素与谓语动词之间的相关性较强的特点,在句法要素识别中引入注意力机制,学习输入序列的内部依赖关系,获取句子的全局信息。首先,对案件事实描述部分的文本内容进行词向量学习。然后,基于双向长短期记忆模型和注意力机制的Att-Bi-LSTM-CRF模型学习句法要素的上下文语法信息。最后,经过CRF层输出最大化的标注路径。该模型可有效提高句法要素的识别效率,1F值达到83.38%,高出传统方法CRF模型2.85%。
其他文献
随着我国社会主义市场经济的发展,资本市场的作用日益被人们关注和重视,而金融保险作为证券市场的先驱,始终是投资者的偏好和选择。众所周知,股市有风险,因此,投资者在衡量投资价值时,必须要考虑保险公司所面临的信用风险可能对其造成的影响。目前,许多学者对于保险行业的投资价值能力、信用风险度量模式等都进行了深入的研究,取得了一系列有借鉴意义的研究成果,但是将投资价值能力、信用风险度量模式二者联系起来的理论和
近年来,随着城市工业和交通行业的不断发展,我国城市声环境质量受到了越来越严峻的挑战,由此产生的噪声污染问题不仅损害了居民的身心健康,还在一定程度上影响了交通管制分流和城市道路建设规划。在这样的形势下,如何有效治理噪声污染己经成为世界各国研究应对策略的重点。通过对国内外相关工作的研究发现,目前市面上已存在多种技术手段来处理噪声污染问题,如噪声监测技术、噪声模拟研究、噪声可视化技术等。然而,噪声监测需
石墨烯作为新型的二维材料,能够应用于相位调制器和光开关等电光调制器上。使用石墨烯光纤作为材料构成的电光调制器长度在纳米量级,需要的电压和电压调节范围均在十分之一伏
近年来中国经济一直保持着较高的发展速度,中国企业发展的焦点由以往的技术和市场开始转向为人力资源管理,企业的不断发展使得人力资源管理的矛盾愈发突显,特别是其中的绩效管理方面的问题。国有石油企业是我国石油行业内的风向标与引导者,对于此类企业而言,科学有效的绩效管理至关重要,对其日后稳定发展也有着巨大影响。虽然各个企业都在实行各自的绩效管理制度,但是在实施过程中都或多或少存在一些问题,A公司作为国有石油
人脸识别是模式识别领域的研究热点之一。有效的提取图像中的特征是人脸识别研究过程中所要面对的首要任务。因此设计有效的特征提取方法成为了提高人脸识别性能的关键。而在实际中,带有遮挡、光照、神态变化等各种干扰的图像随处可见,传统的特征提取方法在处理这类问题时的效果往往不尽如人意。本文基于多流形学习的思想,设计和实现了几种具有较强鉴别力的人脸识别特征提取算法,主要的工作可概括如下:1、基于最大间距准则的鲁
财税体制的全面深化改革,以及税收政策的不断调整完善,使得“营改增”作为我国财税领域的重要政策,取得长足进步。同时,随着市场经济的扩大及经济全球化步伐的加快,企业对“营改增”的认识也在逐渐提高,各行业开始借助不同的“营改增”政策来减轻企业税负,提高自身财务绩效水平,然而这些企业在营业税改征增值税后,其税收负担与财务绩效究竟如何变化,对企业存在哪些利弊,仍然值得我们仔细分析讨论。影视业对比其他行业而言
随着软件系统应用领域不断扩大,对于软件和信息系统的攻击日益增多,人们对软件安全的要求不断提升。为此,在软件开发和测试过程中,工程师使用静态代码分析系统对软件代码进行安全性扫描,并评估分析报告,只有通过安全性评估的软件才可以部署至线上运行。然而,传统代码分析是保守的,为不遗漏安全风险,系统往往会抛出大量误报,这些误报增加了安全工程师工作量,进而对软件开发进度产生影响。随着机器学习领域的发展,学术界已
谓语动词是句子的焦点,是组织句子其它要素的语法单元。识别谓语动词是理解句子的关键。通过谓语动词识别可以解析句子,获取句子的语义信息,抽取的信息可以作为输入信息,提供给机器翻译、文本检索、知识图谱、自动问答等多种应用。通过构建以谓语动词为中心的知识图谱,可以建模事件的动态演化过程,实现事件识别与事件跟踪,具有重要的研究意义。然而,由于中文谓语动词形式多变、结构复杂、使用灵活,加上中文信息处理缺少句子
心肌纤维结构与心脏功能密切相关,研究心肌结构对解释各种心血管疾病的成因和早期诊断具有重要的理论意义和临床价值。磁共振扩散成像技术(d MRI)是目前无损检测心肌纤维组织结构的主要方法,但是该成像技术对心脏跳动信息特别敏感,使采集的磁共振影像存在伪影,同时也无法获得整个心动周期的d MRI图像。此外,由于伦理限制,离体心脏难以获得,所以离体心肌磁共振成像数据亦非常有限。随着大数据和深度学习的出现,利
科研项目与专家匹配自动推荐系统能够根据科研项目主管部门、地方科技服务机构等部门的科研项目信息,匹配推荐相关的科研技术专家。对于这些机构而言,当他们在研究开发过程中遇到技术瓶颈时,可以通过该系统发布相关的科研项目信息,系统能够根据科研项目信息进行匹配,推荐满足需求的技术研究专家,减少这些机构的专家搜索成本,有利于更好地将技术难题与专家智慧进行匹配。首先,基于目前已有的研究成果,提出了针对科研主管部门