面向领域的中文文本主题自动提取的研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:liusiyu111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,各行各业每天都会产生大量的文本数据。仅靠人工的方式进行整理,将消耗大量的人力和物力。如果能从海量的文本数据中提取出简短的主题信息,将大大提高用户的处理效率。
  主题陈述短句的提取旨在对大量以自然语言形式存在的中文文本进行主题的提取概括,最终形成精简的,以自然语言方式呈现的主题信息。主题陈述短句保留了原句中关键词间的语义关联信息,便于后续的文本统计分析。由于不同领域的中文文本通常具有较强的领域特性,文本的结构和表达方式区别显著,采用传统的主题提取方法存在以下不足:基于统计的模型只能提取文本的主题词,基于语义和外部知识库的方法对人类先验知识的依赖过大,需要依靠领域专家制定的句式模板对文本进行主题句提取,难以泛化至其他领域。
  为了解决以上问题,本文将领域知识图谱与深度学习模型相结合,提出了一种面向领域的中文文本主题提取方法( KGST:Knowledge Graph based Sequence Tagging Model),以便获得文本的主题陈述短句,结合文本的关联属性实现数据集的多维分析。本文的主要工作如下:
  1) 本文提出了一种基于H-LDA(Hierarchical-Latent DirichletAllocation)的领域知识图谱创建方法,并泛化了传统知识图谱(实体,关系,实体)的三元组形式。
  2) 本文提出了一种将领域知识图谱与深度学习相结合的模型(KGST)对文本进行主题陈述短句提取的方法。该方法依据领域知识图谱中的实体和关系类别定义语义标签和不同的主题句式,结合深度学习模型对文本进行信息抽取和主题句式分类,进一步生成文本的主题陈述短句。其中,信息抽取部分基于BLSTM-CRF模型实现;主题句式分类模型基于BLSTM模型实现。
  3) 将本文所提出的KGST模型应用到城市管理领域,对城市管理案事件描述文本进行主题陈述短句的提取,并在主题陈述短句的基础上,对数据集进行案件类别,案件涉及实体类别,不同类别案件随时间或空间的数量分布等多方面的分析。
其他文献
正交频分复用(OFDM)技术具有抗多径时延、抗信道衰落、频谱利用率高、硬件实现简单等优点,近年来受到广泛关注,但OFDM技术存在着两个主要缺点:对非线性问题敏感、对定时偏差和频率偏移敏感,如何克服这两个缺点是OFDM技术研究的主要方向之一,本文主要是研究正交频分复用技术中的定时偏差和频率偏移敏感问题即同步问题。本文首先介绍了OFDM技术的基本原理、特点以及多径信道特征等,然后对OFDM系统结构进行
该文用表面态和能带论的观点,系统地分析了气体在敏感膜表面吸附时造成表面功函数的变化以及器件的工作原理,同时全面考虑其它因素如晶界电势及吸附气体在敏感膜内的扩散等对响应过程的影响.实验中选用不同材料的复合配比及不同成膜工艺制作敏感膜.并采用双敏感膜结构,与不同类型IGFET组合,研制成检测ppb范围臭氧浓度的高灵敏度复合悬浮栅场效应晶体管(HSGFET)臭氧传感器.测量并比较了不同悬浮栅基片和不同敏
学位
该论文主要研究了LaAgMnO样品的物理特性,其主要内容介绍如下:二.LaAgMnO粉末样品成相过程的研究.通过对一系列LaAgMnO(x=0.05,0.15,0.25,0.35,0.45)多晶样品成相过程的分析,观察到LaAgMnO多晶的临界成相温度与样品的银含量有着密切的关系:银含量越高的样品成相所需的临界成相温度就越高.并且当银含量达到一定程度时会有革质银析出,我们认为这是因为银离子在溶胶-
学位
该文以Ba(MgTa)O(BMT)系微波介质陶瓷为主要研究对象,研究了Ma/Ta比的微量变化对BMT系陶瓷的结构和介电性能的影响.针对BMT烧结性能差,烧结温度偏高,介电常数的温度特性不好的热点问题,采用两种不同的烧结工艺制备BMT微波陶瓷.为了降低BMT系材料的烧结温度、改善温度特性,分别添加Ba(CoNb)O和NaF进行掺杂改性研究.在采用传统一步煅烧法制备的三组不同Mg/Ta比的BMT试样中
学位
MIMO 技术通过在接收端和发送端配置多根天线,可在不增加带宽和发射功率的前提下,成倍地提高系统的容量,显示出明显的优势,是未来无线通信的关键技术之一。然而,MIMO 系统中多个用户同时与基站交互数据,用户之间相互干扰,影响了通信质量,因此如何消减干扰是MIMO系统面临的关键问题之一。  本文研究了不同场景下已有的干扰消减方法,针对目前其设计方案存在的问题,提出了相应的改进方法。本文的主要工作如下
学位
第五代移动通信即将来临,要求数据速率提高100~1000倍,设备连接数提高10~100倍,对频谱效率和能量效率提出了更高的要求。由于非正交多址技术(Non-Orthogonal Multiple Access, NOMA)可以极大提高频谱效率,因此成为了下一代移动通信候选方案之一。但是数据量的急剧增长,也导致了极大的能量消耗。因此,绿色通信也是未来研究的重要趋势之一。基于以上研究背景,针对功率域N
频谱资源不受限制、设备成本低以及与现有无线电磁波通信互不干扰等特点使可见光通信成为扩充无线通信系统容量、提升通信覆盖率的一种重要候选技术。多输入多输出(Multiple-Input Multiple-Output, MIMO)技术对无线电磁波通信系统通信容量的大幅度提升为室内可见光通信系统传输方案的设计提供了重要的参考和借鉴,室内多光源布局的天然条件更加便利了MIMO技术在室内可见光通信系统中的应
近年来,我国逐步建成了防守型的海洋防御体系,海防雷达正发挥着越来越重要的作用。海防雷达的海表面目标检测(特别是海表面的小目标检测)技术,在军用和民用均有着重要的地位,它广泛地应用于海洋安全、海事救生、监控非法走私等领域。在各种检测方法中,对目标所在背景环境中的噪声及海杂波进行有效的处理十分重要,这直接影响目标检测的性能。而海面情况极其复杂,天气、浪涌等因素给目标检测带来了极大地困难和挑战,在复杂的
学位
序列-序列模型是人工智能领域(特别是自然语言处理领域)普遍使用的模型之一。这个模型能够使用一个统一的框架,直接将输入序列转化为输出序列。许多问题都能够转化为这种形式的问题,进而能够使用序列-序列模型进行求解。无论是机器翻译、句法分析还是语音识别,通过对问题的输入和输出的形式进行合理的变换,我们可以对众多问题得到一个统一的解法。另一方面,句法信息是计算语言学的一个重要的组成部分。许多研究已经证明了句
学位
无人机(Unmanned Aerial Vehicle,UAV)由于其灵活性、易部署、低成本和可扩展性等特点已经被广泛地应用于不同的场景中,但是单架UAV系统受到功能简单、覆盖范围有限的限制使它们不能扩展到更多的应用中。为了克服单架UAV系统的不足,利用不同UAV之间的协作建立ad hoc模式的网络,称为飞行器自组织网络(Flying Ad Hoc Networks,FANETs),来扩展应用范围
学位