基于神经网络和语句特征融合的汉语复句关系词自动识别

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:li13688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系词是复句在语表形式上的标记,是复句中标示关系的一个重要构件,它在很大程度上影响着分句的语义和复句层次关系的识别。关系词的自动识别有助于划清句子的语法成分,弄清复句表达的语义,从而有利于提高机器翻译的准确度。同时,复句是连接篇章的桥梁,关系词的识别对促进篇章研究有十分重要的意义。目前,汉语复句关系词识别方法有基于规则的方法与基于统计的方法,这些方法过度依赖于人工总结的规则。本文探讨使用深度学习的方法进行关系词识别。针对复句关系词识别方法都依赖于人工提取的语句特征的问题,提出了将神经网络引入关系词自动识别的方法。该方法将复句语料库中提取的特征融合到词向量中,将词向量输入到构建的神经网络模型中进行训练。为了探究神经网络模型中不同语句特征组合和不同词向量对关系词识别的影响,利用哈尔滨工业大学语言平台(LTP)对现代汉语复句语料库(CCCS)中的复句进行语句分析,提取出四种常见的语句特征建立语句特征库;再从语句特征库抽取特征并将特征进行组合,将组合后的语句特征分别与CBOW和BERT词向量矩阵进行语句特征融合,并输入到神经网络模型中训练;最终通过分析不同的训练模型测试结果来挖掘彼此的联系,获得不同词向量与语句特征的最佳组合。通过构建训练集与测试集对提出方法进行检验,在不依赖任何语句特征的情况下,仅输入CBOW和BERT词向量矩阵训练的模型在测试集中的F1值达到了 91%以上。同时在使用语句特征融合的情况下,F1值达到了 92.52%。实验结果表明本文提出的基于神经网络与特征融合方法既利用了深度学习模型中自动提取特征特性,又融合了人工总结的显然特征,既提高了识别的效率又取得了较高的正确率。
其他文献
近年来,随着人工智能的发展,自然语言处理下的机器阅读理解任务已经成为人们研究的热点问题。中文数据集的大量涌现,掀起了中文机器阅读理解任务的研究高潮。机器阅读理解任
随着无线通讯技术的不断发展和普及,Wi-Fi在日常生活中的应用领域越来越广,由于成本低、信号传输范围广、适用性强等特点,Wi-Fi广泛应用于不同的室内定位系统。由于不需要部
室内外环境日益复杂,人们对于导航的需求日益增加,尤其是商场、图书馆、地铁站等大型公共场所,常需要快速的获得用户所在的位置。WIFI、红外线、UWB等基于无线射频信号的室内
随着智能手机、平板电脑等智能移动设备迅速普及和新型业务的不断出现,无线网络正面临着数据流量指数增长的巨大挑战。为了满足更高的网络性能需求,异构网络(Heterogeneous N
煤炭是我国最主要的能源之一,低透性煤层瓦斯的瓦斯抽采效率低、施工周期长严重制约着安全生产,通过深孔预裂爆破增透技术可以提高瓦斯的抽采效率,提高生产效率、保障生产安
杜84块兴隆台油藏是重是辽河油区投产较早的超稠油油藏。兴I组油层发育较好,平面上大面积连片分布,油顶埋深650~750m,单层平均厚度14.2m,边水油藏。岩性主要为砾状砂岩和含砾
由于近些年来软件程序应用领域逐渐扩大,这便导致软件规模也会随之变大。因为程序中日渐增加的缺陷会导致程序运行时出现错误的频率越来越大,这种缺陷程序存在的隐患将会影响
土壤是人类赖以生存的物质基础,承载着重要的生命过程和反应。而随着经济及工业的快速发展,土壤重金属污染已成为全球性环境问题,为保证人类健康、实现可持续发展,土壤重金属
钙钛矿是一种半导体材料,具有成本低,载流子迁移率高,光吸收系数高的特点,在太阳能电池、电致发光、激光器和显示器领域具有巨大的应用潜力,目前有机-无机杂化钙钛矿太阳能电
电离层是地球大气环境中最为关键的部分,对无线电通信有着重要作用。掌握电离层参数的变化规律是了解电离层最直接的方法。非相干散射雷达(ISR)可以高精度地探测到电离层等离