基于知识蒸馏的新闻分类系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liongliong471
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对网络上类别混乱、组织无序的新闻文本,大众有时需要消耗额外的时间去鉴别真正有意义的新闻资讯。为此一些企业选择构建企业内部的新闻平台,制定规范化的新闻分类标准,收集网络上的新闻信息并重新整理和分类,然后提供给企业员工。但如果完全依靠人工对收集而来的新闻进行分类,反而会给企业增添额外的负担。本文设计并实现了一个基于知识蒸馏的新闻分类系统,该系统具有分类模型训练、新闻门户以及后台管理三大模块。在分类模型训练模块会训练用来预测新闻类别的深度学习文本分类模型,由于分类模型的推理时间必须满足系统的响应速度要求,因此只能选用参数量较少、层数较浅的小型深度学习模型。为了令分类模型具有更高的分类准确率,提出使用知识蒸馏技术完成分类模型的训练。为了验证知识蒸馏技术在新闻文本分类任务上的有效性和普适性,选用了Text CNN、Text RNN两种模型作为学生网络,教师网络则选定为BERT文本分类模型。实验结果证明,使用知识蒸馏技术进行训练后,Text CNN、Text RNN的分类准确率均有很大提升,而Text RNN的整体分类准确率高于Text CNN,最终选用具有最高准确率的Text RNN集成至系统。在新闻门户页面用户可以浏览各种类别的新闻资讯,而在后台管理页面管理员可以对新闻等各类信息进行高效的管理。对于分类错误的新闻,用户可以提交相应的反馈,管理员则可以参考这些反馈修改新闻的类别,并将已分类的新闻添加到新闻分类数据集中。这些机制不仅保证了新闻类别的准确性,而且令数据集具备了实时性和可扩充性,只需在数据集上定时重新训练分类模型,即能令分类模型与新闻保持同步。该系统能够帮助企业对新闻进行快速而准确的分类,能够为企业员工提供高价值的新闻资讯,同时该系统可以作为企业推进企业文化建设、收集员工兴趣爱好的重要工具,具有很高的应用价值和推广价值。
其他文献
文化生态旅游是集文化、生态、旅游一体的复合性的新型旅游体验方式。异彩纷呈的自然风光和独具特色的民俗文化遗产以及潜在的消费需求,让文化生态旅游具有广阔的市场前景,受到各地政府的大力支持,成为推动乡村振兴和促进旅游业高质量发展的有效途径。湖北省长阳土家族自治县拥有累积深厚的民族文化和美丽的山川河流资源,为文化生态旅游的开发提供了广阔的发展空间。但由于长阳土家族自治县经济发展水平较低,当地的文化生态旅游
学位
近年来,随着各种智能电子设备的普及,自动指纹识别系统成为了应用最广泛的生物识别系统之一,它在我们的日常工作生活中扮演着相当重要的角色。对于生物识别系统来说,识别算法的精度保证着系统的安全,也保证着使用者的隐私权甚至是财产权,提升识别算法精度一直具有重大的意义,所以研究一个高精度的指纹识别算法,实现更安全的指纹识别系统在当下的智能设备普及时代具有重要的价值。区别于已有的研究中使用FCN来提取高清指纹
学位
当今,无人驾驶技术已成为未来汽车产业的最新发展方向。而高精地图对于无人驾驶技术的实现有着不可忽视的作用。高精地图市场方兴未艾,竞争激烈,由于数据量极大,更新频度要求高,如何高效生产出高质量的地图数据是整个测绘行业面临的共同挑战。精益生产是当今世界最先进的管理方式之一,推行精益生产可以帮助企业大幅减少浪费、降本增效,帮助企业在愈加激烈的市场竞争中获取竞争优势。本文以生产高精地图数据产品的Z公司为研究
学位
N公司是世界领先的通信设备和网络解决方案提供商,在全球170多个国家和地区拥有自己的产品和解决方案。为了满足5G时代爆发性增长所需的更多功能,N公司必须不断地升级产品。基站是电信运营商采购设备的重点,在N公司的战略规划中占据了制高点。但在产品迭代开发过程中,N公司面临客户需求的多元化、软件规模大、缺陷修复速度缓慢等挑战,需要利用现代项目管理理论指导软件迭代开发过程,提高软件交付的效率、质量等。本文
学位
随着智能终端以及个人电脑应用的普及,任何可以连接到网络的地方且会使用网络的个体都能在互联网上浏览新闻、搜索话题以及抒发自己的见解,国民发表言论的自由程度越来越高。在此环境下,相关机构有必要在社会的各种领域对民众发表的言论进行监督和分析。这种监督和分析不全是为了监控和禁止民众发表言论,在医疗领域可以用较快的速度从众多医护工作者的言论中获取第一手的流行病传染病或其他疾病的信息,以他们的消息作为防控或治
学位
学龄前是自闭症儿童治疗的黄金时期,在这一阶段如果得到科学、适宜的教育,将对自闭症儿童今后的可持续发展起到极为重要的作用。因此,大多数照顾者都需要放弃自己原有的一部分社会角色,专职照顾孩子,尽快适应学龄前自闭症儿童照顾者这一身份。而在这个过程中,照顾者们也存在着和外界接触骤然减少的焦虑感、原有的社会支持逐渐变弱、以及收入减少而花销增加导致的经济压力等,上述多重因素导致学龄前自闭症儿童照顾者存在较高的
学位
随着计算机与互联网高速的发展,网络的范围逐渐突破了传统计算机网络的限制开始融入人们生活的点滴之中。智能家居,智慧医疗等等这些例子都是互联网高速发展并与人类身边事物结合所产生的物联网的鲜明写照。随着人类对网络的依赖逐渐扩大,个人信息生活点滴也全部融入互联网中,这就使得互联网成为了一个巨大的信息仓库。互联网在为人类的生活带来便利的同时也为用户的信息安全留下了不小的隐患,大型服务器遭受攻击,用户私人信息
学位
数字化经济的不断发展,越来越多的行业开始从大量数据中获得有效信息,帮助本行业更好地生产、制造、销售商品。随着中国制造2025的不断临近,工业大数据再次成为行业发展的热点方向,增材再制造作为主力发展方向之一,在过往的大数据管理系统中多存在数据存储方式不合理、对于数据的分析处理难以定制化等问题,因此需要一个可以针对不同类型数据和大量数据进行合理的存储,并提供一套完整的数据存取接口的大数据管理系统。通过
学位
随着移动互联网的高速发展,短视频作为一种新兴媒介正在影响着人们的文化生活,如何结合移动互联网将短视频的独特生态位优势给发挥出来从而塑造良性多元发展的内容产业生态是一个值得探讨的话题。伴随着市场的发展,短视频用户数据呈指数级别爆发式增长,使用传统数据仓库处理海量数据时会出现系统运行不稳定等情况,数据处理、分析和挖掘的效率已经不满足企业的需求。针对该问题,并且结合短视频的业务特点,设计并实现一个性能稳
学位
在计算机算力日益充足和互联网带来的数据量爆炸的影响下,由深度学习引领的人工智能热潮越来越热烈。研究人员与资本不断涌入人工智能领域,将一个个难题破解,持续地推进着人工智能的产品落地。传统的盘点系统需要手动录入商品库存,这种方式效率低并且容易出错,本文研究与设计了以数字语音识别为主体的盘点机数字识别系统(以下简称为语音盘点系统),系统的设计初衷是使得盘点人员可以通过语音直接录入库存以提高盘点效率。本文
学位