论文部分内容阅读
目前科技论文资源的十分巨大,难以处理,如何对海量数据进行分析、挖掘以及有效组织成为了一个难题。识别论文中并列关系知识单元,即对全文中在结构上或内容上呈并列关系的文本以及其描述的知识种类进行识别抽取,不仅能实现科技论文的重点概要预览,同时也可以实现文中核心知识内容的有效组织,为知识组织、知识抽取等工作提供可靠的数据基础。
本研究以科技论文为研究对象,目标是识别并提取单文档中的核心知识内容,利用文本多粒度的表示向量,优化改进CNN分类模型的输入,并针对数据量少的文本分类任务,以半监督自学习的方法完善训练过程,之后基于信息抽取的关键技术,以改进的模板匹配的方法实现了并列关系文本的知识种类的有效识别,较传统方法效果有所提升。具体而言,主要进行了以下工作:
(1)详细调研、充分分析了并列关系文本识别的研究进展和现有方法,同时对本文所需要的文本相关的方法进行了分析,包括不同粒度的文本表示、文本分类以及信息抽取技术;对科技论文中并列关系文本块的特征进行分析,并归纳为字符、词、词性、样式四个粒度的特征;对各个粒度的特征的表示方法进行了简单分析介绍。
(2)在不同粒度文本特征的基础上,对于标注数据量充足的篇章级并列关系文本块,采用CNN多分类模型,同时进行分类实验;对于标注数据较少,且有大量未标注数据的段内并列关系文本块,采用半监督自训练方法优化CNN二分类模型的训练过程;并针对实验结果总结了可取和不足之处、提出了可能的改进方案。
(3)根据分类的结果,采用规则的方法找出文本块的知识描述文本并分类,利用信息抽取中的关键技术,如三元组抽取、模板匹配等,对所有类型的描述文本进行实体关系抽取。并将并列关系知识单元定义为实体-关系-并列文本块的结构,使用全文数据进行了实验,对实验结果进行了分析、总结,提出改进方法。
本文提出的并列关系文本分类方法在篇章级和句子级均取得了优于传统的分类方法的准确率,在得到并列关系文本块的基础上识别其知识种类,最终得到论文的所有并列关系知识单元。
本研究以科技论文为研究对象,目标是识别并提取单文档中的核心知识内容,利用文本多粒度的表示向量,优化改进CNN分类模型的输入,并针对数据量少的文本分类任务,以半监督自学习的方法完善训练过程,之后基于信息抽取的关键技术,以改进的模板匹配的方法实现了并列关系文本的知识种类的有效识别,较传统方法效果有所提升。具体而言,主要进行了以下工作:
(1)详细调研、充分分析了并列关系文本识别的研究进展和现有方法,同时对本文所需要的文本相关的方法进行了分析,包括不同粒度的文本表示、文本分类以及信息抽取技术;对科技论文中并列关系文本块的特征进行分析,并归纳为字符、词、词性、样式四个粒度的特征;对各个粒度的特征的表示方法进行了简单分析介绍。
(2)在不同粒度文本特征的基础上,对于标注数据量充足的篇章级并列关系文本块,采用CNN多分类模型,同时进行分类实验;对于标注数据较少,且有大量未标注数据的段内并列关系文本块,采用半监督自训练方法优化CNN二分类模型的训练过程;并针对实验结果总结了可取和不足之处、提出了可能的改进方案。
(3)根据分类的结果,采用规则的方法找出文本块的知识描述文本并分类,利用信息抽取中的关键技术,如三元组抽取、模板匹配等,对所有类型的描述文本进行实体关系抽取。并将并列关系知识单元定义为实体-关系-并列文本块的结构,使用全文数据进行了实验,对实验结果进行了分析、总结,提出改进方法。
本文提出的并列关系文本分类方法在篇章级和句子级均取得了优于传统的分类方法的准确率,在得到并列关系文本块的基础上识别其知识种类,最终得到论文的所有并列关系知识单元。