【摘 要】
:
随着互联网技术的快速发展,网络信息指数式增长,由于缺乏强有力的监督与约束,使得各种谣言迅速产生与急速扩散,尤其是各种虚假健康信息的肆意传播,不利于人们的健康、社会的
论文部分内容阅读
随着互联网技术的快速发展,网络信息指数式增长,由于缺乏强有力的监督与约束,使得各种谣言迅速产生与急速扩散,尤其是各种虚假健康信息的肆意传播,不利于人们的健康、社会的稳定和国家的发展。文本分类是自然语言处理的一个子任务,但目前对虚假健康信息文本识别的研究非常缺乏。以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等。与谣言等不同,网上的虚假健康信息中含有大量的医学专业术语,而且大多文本呈现虚虚实实,真假参半的特点,这些特性使得大量且有效的标注数据非常难以获取,而且标注样本又非常费时费力。近些年,深度学习的方法已被运用来解决相关问题,并且取得不错的成果,但其需要大量的高效的标注数据,这也一定程度上限制了深度学习模型解决此问题。随着迁移学习模型的出现,预训练模型和微调模式的兴起,降低了对标注数据的需求,也更利于解决此类问题。本课题的主要目的是针对网络健康信息,提出一种虚假健康信息检测的方法,以果壳网的流言百科上的医学健康信息文本为数据,对其进行建模,利用深度学习模型和迁移学习模型进行分类预测,判断其是否为虚假健康信息。本文的主要创新性工作如下:1)本文采用了 Word2vec模型和BERT模型两种文本向量化方法,方便后续模型进行特征提取;并利用BERT模型训练通用语言模型,通过迁移学习,将通用语言模型中的知识应用到医学信息分类任务。2)本文提出了一种基于词向量的神经网络模型,利用Word2vec模型和BERT模型训练词向量,以此替代神经网络模型的嵌入层,同时采用多模型结合的方法,实现提高分类模型效率的目标。3)本文提出了一种基于通用语言模型的迁移学习模型,通过获取的网络上没有标注的相关数据,作为训练通用语言模型的数据集,利用BERT模型进行训练,得到通用语言模型。将通用语言模型作为知识库,利用BERT模型和简单的神经网络模型,将从中学习到的知识迁移到医学信息分类任务中,提高医学信息分类的精确率和效率。
其他文献
介绍了主要镁盐近5 a的进出口情况及2005年进出口价格比较和中国销售价格情况。从分析结果看:除化学纯氧化镁进口量大于出口量,其它镁盐出口量远远大于进口量,但进口价格远高
作为城市轨道交通装备的血脉——线缆的传输作用不可替代,而压接工艺技术能够进一步提高线缆连接传导的可靠性,提升车辆运行的稳定性和安全性,为国家的铁路运输安全提供可靠
2011年至今,大数据概念在中国广告学界和业界引起普遍关注,大数据技术正在得到广泛应用,并在宏观和微观层面影响和改变中国企业的品牌策略,用户的价值更多地表现为品牌的数字
初中物理是初中课程体系的重要组成部分,非常考验学生的逻辑思维能力,对于初中学生来说,学习物理相对比较困难,一些学生在学习过程中,积极性不高,所以在初中物理教学过程中,
对“素质教育”这个概念,有人肯定,有人否定,逐渐引起人们的重视,本文对这些否定之辞进行实事求是的分析。汇集了几种比较流行的否定之辞,即“先天说”、“双刃说”、“片面说”、
关注“审美型”人格发展的美术教育是满足情感和表达需要的一种情感教育,是鼓励大胆表达、自由创造的一种创造性教育,是在教师指导下进行的一种审美游戏活动,其教育指导策略
<正>1关于《一枝花》20世纪中叶,中国历史发生了翻天覆地的变化。中华人民共和国成立初期,在国家振兴和弘扬民族文化艺术政策的感召下,各演艺团体和音乐院校,纷纷从各地民间
非均匀有理B样条(Non-Uniform Rational B-Splines,简称NURBS)方法是曲线曲面表示中最为重要的数学方法,也是计算几何、计算机辅助几何设计(Computer Aided Geometric Design
北京作为元明清以来的历代国都,首善之区,具有特殊的地位。清末民国以来,相继经历了清政府、北京政府、南京国民政府的统治,北京的慈幼事业在不同政府统治时期的发展脉络也有
古筝是我国古老的民族弹拨乐器,承载着两千五百多年的民族历史和精神文明。经过历史的长河,时代的变迁。改革开放后,陕西地区涌现出一批地方风格浓郁的陕西筝乐作品,这些作品也见证了当时的时代精神,反映了人民风貌。《锁风沙》这首陕西筝乐重奏作品是由西安音乐学院作曲家饶余燕先生于1992年创作的,作品用现实主义题材描写了黄土高原人民抗击风沙、绿化造林的英雄伟业。作品汲取了陕西民间音乐与西安鼓乐的音乐素材。在写