论文部分内容阅读
近年来,互联网上充斥着越来越多的信息,各种媒体每天在网络上发布大量的新闻。在金融领域当中,由于人们对于企业信誉等更加看重,会更加关注网络当中的相关新闻。同时,大量金融新闻的广告性、总结性较强,不具有价值性,这类新闻的存在增添了人们在获取相关资讯过程中的时间成本。此外,对含有潜在价值的金融新闻进行分析往往可以迅速获得信息的升值价值,有效鉴别该类新闻可以避免专业分析人员接触大量不具有分析意义的新闻文本,从而大量节约该过程当中的人工分析成本。因此,如何从大量的新闻数据当中有效鉴别含有潜在价值的金融新闻拥有重要的研究意义。本文当中,我们通过文本分类方法鉴别含有潜在价值的金融新闻。与传统文本分类问题不同的是,待分类的文本具有较长的文本长度,且不同类别之间数据具有比较大的相似性,因而是一个细粒度的长文本分类问题。对于自然语言处理当中的文本分类任务,研究重点一般在于文本表示建模方法当中。现有的文本建模方法一般在较短文本上能够取得比较好的建模效果,对于长文本的建模尝试相对较少。本文提出,在细粒度新闻文本分类问题的长文本建模过程当中,层次化地建模长文本能够更好地获取文本特征。为此,本文基于预训练语言模型,BERT(Bidirectional Embedding Representation from Transformers),构建了层次化的长文本建模框架,并且在该框架之上加入了不同的篇章编码器,构建了两个具体的长文本分类器。我们在不同的数据集上进行实验,两个长文本分类模型在两个新闻分类数据集上均获得了优于当前已有模型的分类性能,说明了我们提出的长文本建模方法的有效性。根据当前任务的细粒度分类特性,我们为文本分类任务构建辅助的文本匹配任务,进行多任务学习,从而提升基础模型的分类性能。在构建文本匹配任务数据集的过程当中,我们从当前分类结果的混淆情况出发,设计算法进行负样例的定量构建,控制易混淆类别之间的文本构成更多的文本匹配负样本。我们在不同的细粒度文本分类数据集上进行了实验,实验结果表明,这种经过设计的辅助学习任务能够很好地帮助我们在多个基础模型之上提升细粒度分类任务的分类性能。我们在多任务学习之后继续进行了目标任务微调的实验,并在多数基础模型上取得了更优的分类性能。