论文部分内容阅读
文本语义匹配是文本分析中的一项核心问题,旨在从大量文本中筛选出与指定文本在语义上相近的文本集合。目前已有大量面向同源文本的语义匹配研究,这些研究均建立在大规模匹配数据集的基础之上。但在真实场景下,文本语义匹配任务的研究对象往往是异源文本数据,不仅没有可用的匹配数据集,甚至连不同类型文本之间的样本量也极不均衡,所以无法使用以往的方法进行建模。
本研究以科技论文和专利两种科技文献为研究对象,针对无匹配数据集的异源文本语义匹配问题提出了一种有效的解决方案:以异源文本中数据样本量充足、分类体系层次特征明显的单源文本数据进行异源文本近似建模:训练基于biLM的动态文本表示;构建文本语义编码模型;利用多任务分类架构学习多层次的语义特征,获取文本语义编码。在此基础上,以编码之间的相似度衡量文本之间的语义匹配程度,实现异源文本的语义匹配。具体而言,主要进行了如下工作:
(1)详细调研、分析了文本语义匹配的相关研究,归纳出目前的文本语义匹配研究方法;结合异源文本语义匹配的具体问题,指明研究路线,对方法中涉及到的核心技术原理进行梳理。
(2)结合语义匹配问题,为提高语义匹配性能,对biLM进行改进,提出了高效的动态文本表示模型;在使用动态文本表示的基础上,学习分类体系的特征供语义匹配所用,针对分类体系下的单层子类特征学习问题,设计分类体系特征学习模型,以分类的方式学习分类体系中的知识组织特征;为将多层分类体系特征进行融合,使用多任务分类架构将多个分类树子类特征学习模型进行融合,将多层次分类特征融入模型,生成文本语义编码,以编码的余弦相似度衡量文本之间的语义匹配关系。
(3)以科技查新中的语义匹配问题为例,展开实验。使用专利文献数据构建动态文本表示,相比其他模型结构困惑度达到最低;分别对IPC分类体系E部下的大类、小类两个知识层次进行分类树子类层特征学习建模,以分类结果衡量模型学习特征的能力,得到准确度为92.74%和87.63%,确认结果达到实用级别;对多个分类树子类特征学习模型进行融合,构建基于多任务分类的科技查新文本语义匹配模型,将多任务模型与单任务模型的精度进行对比,在小类准确率上提高了1.68%,平均准确率达到91.26%;最后,使用真实查新数据进行实证分析,证明研究所提出方法的有效性。
本研究以科技论文和专利两种科技文献为研究对象,针对无匹配数据集的异源文本语义匹配问题提出了一种有效的解决方案:以异源文本中数据样本量充足、分类体系层次特征明显的单源文本数据进行异源文本近似建模:训练基于biLM的动态文本表示;构建文本语义编码模型;利用多任务分类架构学习多层次的语义特征,获取文本语义编码。在此基础上,以编码之间的相似度衡量文本之间的语义匹配程度,实现异源文本的语义匹配。具体而言,主要进行了如下工作:
(1)详细调研、分析了文本语义匹配的相关研究,归纳出目前的文本语义匹配研究方法;结合异源文本语义匹配的具体问题,指明研究路线,对方法中涉及到的核心技术原理进行梳理。
(2)结合语义匹配问题,为提高语义匹配性能,对biLM进行改进,提出了高效的动态文本表示模型;在使用动态文本表示的基础上,学习分类体系的特征供语义匹配所用,针对分类体系下的单层子类特征学习问题,设计分类体系特征学习模型,以分类的方式学习分类体系中的知识组织特征;为将多层分类体系特征进行融合,使用多任务分类架构将多个分类树子类特征学习模型进行融合,将多层次分类特征融入模型,生成文本语义编码,以编码的余弦相似度衡量文本之间的语义匹配关系。
(3)以科技查新中的语义匹配问题为例,展开实验。使用专利文献数据构建动态文本表示,相比其他模型结构困惑度达到最低;分别对IPC分类体系E部下的大类、小类两个知识层次进行分类树子类层特征学习建模,以分类结果衡量模型学习特征的能力,得到准确度为92.74%和87.63%,确认结果达到实用级别;对多个分类树子类特征学习模型进行融合,构建基于多任务分类的科技查新文本语义匹配模型,将多任务模型与单任务模型的精度进行对比,在小类准确率上提高了1.68%,平均准确率达到91.26%;最后,使用真实查新数据进行实证分析,证明研究所提出方法的有效性。