弱监督学习在文本分类上的应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hedanjiaotong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中一项基础而重要的任务。在网络信息急剧膨胀的今天,文本分类可以在一定程度上解决信息杂乱的问题,有利于信息的准确获取和应用。神经网络模型在解决文本分类问题上取得了很好的成果并被普遍采用,但缺乏训练数据仍是阻碍它们应用于许多实际场景的关键瓶颈。事实上,训练一个效果良好、泛化能力强大的文本分类模型通常需要百万级别的标记语料。而收集此类培训数据需要相关领域专家学者阅读数百万份文档,并使用领域知识对其进行仔细标记,这种做法消耗太大且难以实现。此外,研究者还经常面临仅有少量标注数据的情况。因此,如何有效利用无标注数据进行文本分类成为自然语言处理中的一个重要研究方向。针对弱监督学习在文本分类上的现状,本文尝试了基于“自编码器”和基于“协同训练”的弱监督文本分类方法。第一种思路提出了利用自编码器将无标签数据进行学习,在训练阶段通过自编码器的隐层神经元“竞争”的方法来引导自编码器更多地关注对文本分类更有指引作用的特征,在总体上该模型可以学习对于分类有意义的文本特征。第二种思路对应了模型提出了基于协同训练的弱监督文本分类思想,并提出了通过协同模型和协同规则两种协同训练的方法,在标注数据缺少时,提高文本分类任务的准确率。实验结果表明,本文的方法能有效利用无标注数据,提高文本分类器的性能。用弱监督的方法解决文本分类中标记数据稀少的问题,可以节省人力物力,更加充分的利用未标记数据,大大减少人工标注成本。此外,把这种弱监督的方法推广到其他任务之中,也能对深度学习的各大任务提供一定的借鉴和启示,对于解决深度学习中标记数据稀缺的问题有很高的价值和意义。
其他文献
机载激光测深技术是一种能够高精度快速高效地获取水上、水下目标三维点云的主动遥感技术,已经成为浅海水深测量的热门应用之一。随着对激光测深需求的日益增长,传统线性探测体制的激光雷达因其探测器灵敏度以及自身的功耗和重量,在复杂环境下测量存在诸多限制。而光子计数激光雷达引入时间相关单光子计数技术,极大地提高了系统的时间测量分辨率和探测灵敏度,同时也降低了对激光脉冲能量的要求,可实现轻小型低功耗,适应无人机
近几年,人类对于海洋的研究与开发日趋激烈,未知海洋环境下的目标搜索与围捕问题一直是热门的研究话题。自主水下航行器(Autonomous Underwater Vehicle,AUV)作为拥有灵活的机动性和可装载的水下装置是解决当前问题的技术手段。本文针对未知水下环境的目标搜索和围捕问题开展如下研究内容:首先,对多AUV在水下环境的协同搜索与围捕任务进行分析,提出目标搜索与围捕的解决方案。同时针对执
2017年颁布实施的《民法总则》首次在我国民法中设立了捐助法人制度,将基金会、社会服务机构以及宗教活动场所等以财产为基础成立的法人统一纳入捐助法人的范畴进行特殊规制,
如今,为适应我国社会主义市场经济的发展,党中央、国务院作出转变政府职能、深化放管服改革,深入推进审批服务便民化的决策部署,提出落实“一次办好”改革的要求,进一步强化监管力度,优化营商环境,充分发挥市场对资源配置的决定性作用,更好地发挥政府作用。因此,各级自然资源管理部门高度重视不动产登记工作,按照自然资源部关于推进不动产登记工作的系列部署,积极争取当地政府支持,形成部门合力,将推进不动产登记工作作
目前,家庭化流动已成为城镇化背景下中国流动的主要特征与趋势,而这一流动特征直接导致了城市中流动儿童的规模不断扩大。家庭对于流动儿童而言意义非凡,但现实却是流动儿童家庭呈现出了许多问题。以往研究更偏重于家庭和成人视角,忽视了儿童的主体性。城镇化所带来的流动影响着流动儿童对于家的社会表征,同时流动儿童对于家的社会表征是通过自身生活实践不断形成的。本研究进行了研究视角的转换,试图基于儿童利益最大化原则,
从2003年开始,随着企业人才竞争越来越激烈,人们对教育问题越来越受到重视,我国的教育管理行业逐渐朝着市场化经济发展,涌现出大量的教育信息科技有限公司,这在一定程度上加剧了教育公司员工之间的市场竞争。在教育企业的竞争中,核心竞争力之一就是人才的竞争。为了提升教育企业人才的竞争力,必须研究员工绩效考核制度,建立完善的绩效考核机制,以达到激励员工的目的。本文基于绩效管理相关理论,以A公司为例,从员工绩
学位
伴随着经济高速的发展,企业的发展不再只追求单纯的经济发展,为了保证企业的长期可持续发展,企业可以从管理模式的角度去展开,通过绩效管理企业可以发现自身在发展中存在的一些问题,从而改进优化,实现企业的可持续发展。所以,建立科学合理的绩效管理体系是企业发展中必不可少的。W公司作为X省水利行业领军企业,经过多轮改制,公司多元化程度提高,为了完成公司2018—2020年“十三五”后三年的战略目标,企业现有的
学位
晶胶介质内部有几微米至上百微米的相互连通的超大孔隙,因其具有选择性高、生物兼容性好、传质阻力小和吸附分离迅速等优点,适用于分离纯化生物大分子。内嵌颗粒的复合晶胶介
自我国加入WTO以来,银行业竞争加剧。在互联网背景下,互联网供应链金融的迅速发展,通过与核心企业“捆绑”的方式,为中小企业融资拓展了融资渠道,亦为中小银行创造了良好的发
交互式电子技术手册(Interactive Electronic Technical Manual,IETM)是一种对装备技术资料信息化的技术手段,也是军事装备保障的关键技术之一。它克服了使用传统纸质技术手册所带来的诸多弊端,大幅度提升了装备保障的工作效率,因此在军事和民用领域都得到了广泛的应用。目前,伴随着装备保障领域内的需求更迭和新技术的出现,结合新的技术手段完成智能化IETM系统的开发逐渐成