论文部分内容阅读
随着信息化时代的到来,各行各业每天都会产生大量的文本数据。仅靠人工的方式进行整理,将消耗大量的人力和物力。如果能从海量的文本数据中提取出简短的主题信息,将大大提高用户的处理效率。
主题陈述短句的提取旨在对大量以自然语言形式存在的中文文本进行主题的提取概括,最终形成精简的,以自然语言方式呈现的主题信息。主题陈述短句保留了原句中关键词间的语义关联信息,便于后续的文本统计分析。由于不同领域的中文文本通常具有较强的领域特性,文本的结构和表达方式区别显著,采用传统的主题提取方法存在以下不足:基于统计的模型只能提取文本的主题词,基于语义和外部知识库的方法对人类先验知识的依赖过大,需要依靠领域专家制定的句式模板对文本进行主题句提取,难以泛化至其他领域。
为了解决以上问题,本文将领域知识图谱与深度学习模型相结合,提出了一种面向领域的中文文本主题提取方法( KGST:Knowledge Graph based Sequence Tagging Model),以便获得文本的主题陈述短句,结合文本的关联属性实现数据集的多维分析。本文的主要工作如下:
1) 本文提出了一种基于H-LDA(Hierarchical-Latent DirichletAllocation)的领域知识图谱创建方法,并泛化了传统知识图谱(实体,关系,实体)的三元组形式。
2) 本文提出了一种将领域知识图谱与深度学习相结合的模型(KGST)对文本进行主题陈述短句提取的方法。该方法依据领域知识图谱中的实体和关系类别定义语义标签和不同的主题句式,结合深度学习模型对文本进行信息抽取和主题句式分类,进一步生成文本的主题陈述短句。其中,信息抽取部分基于BLSTM-CRF模型实现;主题句式分类模型基于BLSTM模型实现。
3) 将本文所提出的KGST模型应用到城市管理领域,对城市管理案事件描述文本进行主题陈述短句的提取,并在主题陈述短句的基础上,对数据集进行案件类别,案件涉及实体类别,不同类别案件随时间或空间的数量分布等多方面的分析。
主题陈述短句的提取旨在对大量以自然语言形式存在的中文文本进行主题的提取概括,最终形成精简的,以自然语言方式呈现的主题信息。主题陈述短句保留了原句中关键词间的语义关联信息,便于后续的文本统计分析。由于不同领域的中文文本通常具有较强的领域特性,文本的结构和表达方式区别显著,采用传统的主题提取方法存在以下不足:基于统计的模型只能提取文本的主题词,基于语义和外部知识库的方法对人类先验知识的依赖过大,需要依靠领域专家制定的句式模板对文本进行主题句提取,难以泛化至其他领域。
为了解决以上问题,本文将领域知识图谱与深度学习模型相结合,提出了一种面向领域的中文文本主题提取方法( KGST:Knowledge Graph based Sequence Tagging Model),以便获得文本的主题陈述短句,结合文本的关联属性实现数据集的多维分析。本文的主要工作如下:
1) 本文提出了一种基于H-LDA(Hierarchical-Latent DirichletAllocation)的领域知识图谱创建方法,并泛化了传统知识图谱(实体,关系,实体)的三元组形式。
2) 本文提出了一种将领域知识图谱与深度学习相结合的模型(KGST)对文本进行主题陈述短句提取的方法。该方法依据领域知识图谱中的实体和关系类别定义语义标签和不同的主题句式,结合深度学习模型对文本进行信息抽取和主题句式分类,进一步生成文本的主题陈述短句。其中,信息抽取部分基于BLSTM-CRF模型实现;主题句式分类模型基于BLSTM模型实现。
3) 将本文所提出的KGST模型应用到城市管理领域,对城市管理案事件描述文本进行主题陈述短句的提取,并在主题陈述短句的基础上,对数据集进行案件类别,案件涉及实体类别,不同类别案件随时间或空间的数量分布等多方面的分析。