细粒度的新闻文本分类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:marrymattion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网上充斥着越来越多的信息,各种媒体每天在网络上发布大量的新闻。在金融领域当中,由于人们对于企业信誉等更加看重,会更加关注网络当中的相关新闻。同时,大量金融新闻的广告性、总结性较强,不具有价值性,这类新闻的存在增添了人们在获取相关资讯过程中的时间成本。此外,对含有潜在价值的金融新闻进行分析往往可以迅速获得信息的升值价值,有效鉴别该类新闻可以避免专业分析人员接触大量不具有分析意义的新闻文本,从而大量节约该过程当中的人工分析成本。因此,如何从大量的新闻数据当中有效鉴别含有潜在价值的金融新闻拥有重要的研究意义。本文当中,我们通过文本分类方法鉴别含有潜在价值的金融新闻。与传统文本分类问题不同的是,待分类的文本具有较长的文本长度,且不同类别之间数据具有比较大的相似性,因而是一个细粒度的长文本分类问题。对于自然语言处理当中的文本分类任务,研究重点一般在于文本表示建模方法当中。现有的文本建模方法一般在较短文本上能够取得比较好的建模效果,对于长文本的建模尝试相对较少。本文提出,在细粒度新闻文本分类问题的长文本建模过程当中,层次化地建模长文本能够更好地获取文本特征。为此,本文基于预训练语言模型,BERT(Bidirectional Embedding Representation from Transformers),构建了层次化的长文本建模框架,并且在该框架之上加入了不同的篇章编码器,构建了两个具体的长文本分类器。我们在不同的数据集上进行实验,两个长文本分类模型在两个新闻分类数据集上均获得了优于当前已有模型的分类性能,说明了我们提出的长文本建模方法的有效性。根据当前任务的细粒度分类特性,我们为文本分类任务构建辅助的文本匹配任务,进行多任务学习,从而提升基础模型的分类性能。在构建文本匹配任务数据集的过程当中,我们从当前分类结果的混淆情况出发,设计算法进行负样例的定量构建,控制易混淆类别之间的文本构成更多的文本匹配负样本。我们在不同的细粒度文本分类数据集上进行了实验,实验结果表明,这种经过设计的辅助学习任务能够很好地帮助我们在多个基础模型之上提升细粒度分类任务的分类性能。我们在多任务学习之后继续进行了目标任务微调的实验,并在多数基础模型上取得了更优的分类性能。
其他文献
在光电催化(PEC)分解水的领域中,二氧化钛(Ti O2)作为一种n型半导体,因其成本低、无毒、稳定性好且具有能够分解水的导价带位置而受到了人们的广泛关注,然而,较宽的带隙、缓慢的
随着现代工业的发展,大气污染问题逐渐得到人们的重视。近年来典型的无机污染物CO和有机物甲苯的含量在空气中呈现出明显的递增趋势,这些污染物的存在在很大程度上影响着人们
目的:随着年龄的增加,压力性尿失禁(Stress Urinary Incontinence,SUI)的发病率也在不断升高,严重影响了女性的身心健康、生活质量以及社交方式,同时也给家庭和社会带来了沉
伴随高校信息化建设工作的深入推进,更多的高校开始构建与自身发展实际相一致的数字化网站。数字化网站已经发展为学校管理人员与师生实现交流沟通的有力媒介,也是外部人员全
随着知识经济时代的来临和经济全球化进程的推进,日新月异的现代科技发展推动着产业环境的快速变迁,知识和人才成为当今企业最为重要的战略资产。同时,我国经济正在由“投资
高校名人档案作为名人一生活动的完整记录,不仅反映了名人自身的历史活动全貌,还揭示了名人所处时代的学校历史和社会环境,是学校和国家宝贵的精神文化财富。我国自1984年开
织物的吸水性和水传递性能是决定服装穿着舒适性的重要因素。人体散热有时必须依靠出汗才能维持人体热平衡,如果汗液大量积聚在服装与皮肤间微气候中不能扩散到外界环境,人体
我国是纺织品消费与生产大国,随之产生的大量纺织废料对环境承载力提出了较高的要求。其中,涤纶纺织废料因其产量大、化学成分复杂及处理处置系统不完善等问题已对生态环境造
燃煤电站排放的PM2.5给大气环境和人群健康带来严重威胁,控制燃煤电站PM2.5的排放已迫在眉睫。利用声场或蒸汽相变作用,促进PM2.5长大为粒径较大的颗粒,以提高常规除尘装置的
目的:观察耳鸣合并情感障碍者与非耳鸣者静息状态下功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)的差异,分析耳鸣严重程度与脑功能改变的