基于半监督学习的文本分类关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bluebabyyejing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网中大量冗杂的文本信息,自动文本分类技术可以实现对这些文本信息的自动分类、辨别,在垃圾邮件处理,信息过滤,搜索引擎,语义消歧等多个领域都有着重要的应用。自动分类技术可以实现对互联网上冗杂的信息进行分类处理,从而帮助人们快速找到人们所需要的信息。早期的文本分类方法通常需要大量的有标注的训练数据集,以有监督的方式训练文本分类器。但是获取有标注的文本数据集需要大量的人力,并且往往利用有标注数据集训练的分类器泛化性能较差。而互联网上存在着大量的无标注数据,简单易得,人们开始研究利用半监督学习来进行文本分类的方法。半监督文本分类技术同时利用有标记数据和无标记语料来训练分类器。通过不同的半监督学习方式同时利用有标签数据和无标签数据中的有用信息,从而提高分类器的性能和泛化能力。本文的研究工作主要分为以下几个方面:(1)对经典文本分类方法进行了介绍和分析,详细对比了经典文本分类方法的优劣。并基于经典文本分类方法进行了相关实验。(2)基于深度学习的方法,构建基于LSTM的文本分类器,并向其中引入对抗训练的思想。通过向输入LSTM的词嵌入加入对抗扰动的方法,使得词嵌入的语义表达更加充分,原本语法结构相似但语义不同的词得以区分开。通过残差网络架构,进一步提高词嵌入的语义表达能力。将构建的分类器用于半监督任务上进行测试。(3)为了进一步提取文档表示中的类别信息,提高分类性能,向分类器中引入了自注意力机制。自注意力机制可以简单高效的学习到句子的内部结构,从而提取到文本中不同方面的信息,可以用在文本分类任务上,本文分别引用了单维自注意力和多维自注意力,并进行了相关实验。实验结果表明,引入自注意力机制的分类模型文档的表征更加充分,分类性能更好。与基准模型相比,准确率提高了三个百分点;在相同的词嵌入预训练策略下,本文提出的模型准确率达到0.933,也取得了更好的分类效果。(4)分别使用RNNLM和自编码器语言模型对词向量进行预训练,探究不同预训练策略对分类模型性能的影响;通过改变有标注数据比例探究不同数量有标记数据对分类模型性能的影响,实验表明,本文的提出分类模型在有标注数据量更小的时候相比基线模型可以取得更好的分类效果。在有标注数据减少到20%时,本文提出的分类模型相比基线模型的分类效果提高了5个百分点左右。
其他文献
在房屋建筑工程中,为了保护房间内成品及设备不受影响,需进行门体安装。通过实践应用,设计一种新型的、可周转的简易地锁防护装置,适用于无下槛门体的防护,取得了良好的效果
目前,在县级供电企业管辖的农村电网线损的构成比例中,10kV配电网的损耗约占到总损耗的一半左右,可以看出,抓好10kV配电网的线损管理是供电企业整个线损管理工作的重点。而做好10
钢渣尾泥是转炉钢渣经湿法球磨、磁选处理后的副产品,其水硬胶凝活性较低。本文介绍了物理和化学活化技术对钢渣尾泥的活化研究,实验结果表明,物理活化法可以显著改善钢渣尾
人工智能加速了人类社会的数字化进程,极大地提升了机器获取和分析数据的能力,借助人工智能实现公共决策智能化成为政府应对当今治理环境复杂化挑战的必然选择。在理论建构层
目的:探讨三种方法治疗异位妊娠的疗效.方法:22例患者采用甲氨蝶呤50 mg/m2单次肌肉注射(Ⅰ组),19例患者给予甲氨蝶呤20 mg肌肉注射,每日1次,5 d为1个疗程(Ⅱ组),17例患者给
在新课程改革的背景下,将教学游戏引入信息技术课堂是大势所趋。教学游戏是教学和游戏的自然融合,其设计的优劣决定了教学游戏的成败。美国心理学家霍华德·加德纳教授提出
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本风力摆控制系统由RL78/G13MCU板(R5F100LEA)单片机主控模块、风力摆模块、角度传感器模块、液晶显示模块、按键模块等组成。系统通过角度传感器采集角度信息,用RL78/G13MCU板
在农业银行2017年个人信贷营销工作推进会上,部分分行根据本行个人信贷业务发展情况,突出特色和重点,进行了经验交流介绍。本报推出专版,撷取亮点,以飨读者。$$浙江分行 创新引领
报纸
住院患者存在诸多营养问题,如果及时对存在营养风险和营养不足患者给予营养支持,可以改善大多数患者的临床结局,对缩短住院时间、降低病死率患者起到重要作用。2002年欧洲学者提