论文部分内容阅读
汉语复句研究,属于中文信息处理中的一小类。在中文信息处理这一领域中,对于字、词等方面研究较多。但在汉语复句研究一块,尤其是三分句复句,研究较少。复句,相比于简单句,所包含的语义信息更丰富,表达形式更多样,因此具有比简单句更高的研究价值和意义。在汉语复句的分析研究任务中,二分句复句的分析研究已经取得了良好的成果,但三分句复句的分析研究仍然止步不前。其中一个重要原因就是没有相应的语料库,语料库乃复句分析研究之本。目前用于复句研究的语料数据大都来源于CCCS语料库,其中语料数据较为经典,但语料数据太过陈旧。鉴于这种情况,本文围绕着建立一个新的语料库——汉语复句关系词搭配知识库展开,具体研究工作包括以下三个方面:第一,建立一个专门用于汉语复句研究的语料库《汉语复句关系词搭配知识库》,标记其中的三分句复句;并将这些三分句复句中的关系词补全,补为充盈态三分句复句;同时记录三分句复句中的关系词、关系词搭配组合情况、层次结构与关系类别等,为后面的分析研究任务做准备;第二,复句中的关系类别是可以根据关系词确定的,由此可见,复句中的关系词对于复句研究的重要性。在汉语表达中,字词之间的界限并不是十分明确,且存在一词多义、一词多性等多种情况,给关系词自动识别带来了不少难度。但随技术的进步,基于依存关系规则和基于决策树等方法的汉语复句关系词识别,使得识别率可达到90%以上。但也仅仅是识别出关系词而已。为了便于后续研究,在识别关系词的任务中,除了要识别出复句中的关系词外,同时也要识别出该关系词所对应的关系类别。因此,我们需要寻找一种新的方式来更好地识别出复句中的关系词。这样,在本文的研究任务中,就能达到事半功倍的效果。本文应用随机森林(CRF)模型和Bi-LSTM模型相结合的方法,去识别复句中的关系词及关系词对应的关系类别,将深度学习的方法应用在关系词识别上;第三,运用上述提及到复句关系词识别方法,识别三分句复句的关系词。根据其关系词,分析关系词的搭配组合情况,来确定该三分句复句是否为充盈态三分句复句;如果不是充盈态三分句复句,再利用CNN、Attention等模型,找出其缺省的关系词,并进行补齐。最后,对比分析实验结果,在一定程度上可以证明该研究方法的有效性。