基于深度学习的汉语三分句复句自动分析方法

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wdw_king
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语复句研究,属于中文信息处理中的一小类。在中文信息处理这一领域中,对于字、词等方面研究较多。但在汉语复句研究一块,尤其是三分句复句,研究较少。复句,相比于简单句,所包含的语义信息更丰富,表达形式更多样,因此具有比简单句更高的研究价值和意义。在汉语复句的分析研究任务中,二分句复句的分析研究已经取得了良好的成果,但三分句复句的分析研究仍然止步不前。其中一个重要原因就是没有相应的语料库,语料库乃复句分析研究之本。目前用于复句研究的语料数据大都来源于CCCS语料库,其中语料数据较为经典,但语料数据太过陈旧。鉴于这种情况,本文围绕着建立一个新的语料库——汉语复句关系词搭配知识库展开,具体研究工作包括以下三个方面:第一,建立一个专门用于汉语复句研究的语料库《汉语复句关系词搭配知识库》,标记其中的三分句复句;并将这些三分句复句中的关系词补全,补为充盈态三分句复句;同时记录三分句复句中的关系词、关系词搭配组合情况、层次结构与关系类别等,为后面的分析研究任务做准备;第二,复句中的关系类别是可以根据关系词确定的,由此可见,复句中的关系词对于复句研究的重要性。在汉语表达中,字词之间的界限并不是十分明确,且存在一词多义、一词多性等多种情况,给关系词自动识别带来了不少难度。但随技术的进步,基于依存关系规则和基于决策树等方法的汉语复句关系词识别,使得识别率可达到90%以上。但也仅仅是识别出关系词而已。为了便于后续研究,在识别关系词的任务中,除了要识别出复句中的关系词外,同时也要识别出该关系词所对应的关系类别。因此,我们需要寻找一种新的方式来更好地识别出复句中的关系词。这样,在本文的研究任务中,就能达到事半功倍的效果。本文应用随机森林(CRF)模型和Bi-LSTM模型相结合的方法,去识别复句中的关系词及关系词对应的关系类别,将深度学习的方法应用在关系词识别上;第三,运用上述提及到复句关系词识别方法,识别三分句复句的关系词。根据其关系词,分析关系词的搭配组合情况,来确定该三分句复句是否为充盈态三分句复句;如果不是充盈态三分句复句,再利用CNN、Attention等模型,找出其缺省的关系词,并进行补齐。最后,对比分析实验结果,在一定程度上可以证明该研究方法的有效性。
其他文献
在《习近平谈治国理政》第三卷中,"人民是我们党执政的最大底气"是以习近平同志为核心的党中央"坚持以人民为中心"重要思想的重要内容。在新时代,全党深入理解"人民是我们党
目的通过研究短效GnRH激动剂(GnRH-a)长方案与拮抗剂方案这2种促排卵方案在体外受精-胚胎移植(IVF-ET)助孕中的成本及效果,从而选择一种更经济有效的促排卵方案。方法回顾性
《清实录》是清代官修编年体史籍,是研究清代历史的基本史料。清朝在位的12位皇帝有11位纂修有实录。《清实录》分别用满蒙汉三种文字书写,形成了不同文字书写的不同版本的各
会议
宅急送的物流基地应该是一种规模非常大的物流结点,它的集约功能非常强,它的综合功能非常强,宅急送的物流基地可以分为全国性物流基地和区域性物流基地。
会议
我国税收征管体制改革改变了长期以来的国地税分家管理模式,国地税合并,徐州市税务机关纳税人的办税成本降低,涉税业务办理更为便捷,有效的促进了税务机关纳税服务质量的提升
云南省第九次党代会提出了科学发展、和谐发展、跨越发展的战略发展思路,科学谋划了云南未来五年的发展蓝图,鼓舞人心,催人奋进。省委书记秦光荣指出:要树立高远、开放、包容
会议
近年来,面对传统建筑所衍生的高污染、高能耗问题,绿色建筑因其自身绿色、环保和可持续的优点备受青睐。为顺应建筑的发展趋势,贯彻“绿色发展”和“可持续发展”的理念,我国从不同的层面制定了法律法规,颁布了诸多规划与政策以推广绿色建筑。为保障其高质、高量发展,还综合运用多元手段对其进行监管和激励。伴随绿色建筑推广的深入,相关规范性文件逐渐暴露其内在缺陷,对绿色建筑规模化发展的推动力不足。究其根源在于绿色建
近年来,中国在知识产权领域的发展备受世界瞩目,从目前已经公布的数据来看,2000年时,中国PCT国际专利申请量居世界第十六位,到2019年,中国PCT国际专利申请量已经跃居全球第一
达芬奇手术机器人系统作为一种新型微创系统具有安全,高效,局限性低的优势,而心脏外科是最能体现手术机器人价值的领域,克服了常规开放手术和腔镜手术技术的局限,实现了心脏
会议
2020年"新冠"肺炎疫情极大的影响了学生的正常学习生活,在特殊时期应当发挥辅导员对班级管理的核心作用,抓住对大学生进行思想教育的时机,完善班级管理工作体系,培养大学生以