基于迁移学习的文本分类方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zql0913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来和网络社交平台的广泛应用,网络平台上各种数据类型的文本信息数据数量呈指数级增长。为了及时获取有价值的文本信息,就需要根据文本内容对这些文本进行分类、归档,文本分类作为信息挖掘和检索、自然语言处理技术的重要基础,利用计算机进行文本的智能化分类工作,属于该领域研究中的一个热点所在,同时为其中的难点,吸引了诸多学者人员纷纷参与进来,进行深入研究。在以往的文本分类发展中,用于训练和测试分类模型的两部分数据必须严格遵守以下两个要求:(1)测试样本和训练样本必须服从独立同分布(2)必须要有足够量的训练样本,但是随着数据采集技术日新月异的发展和网络文本的快速更替,以上这两个假设往往并不完全成立。基于迁移学习的文本分类方法通过分类知识在相关领域间的迁移,打破了以上两个基本假设带来的限制,从而能够更好解决实际应用中的文本分类问题。在文本分类方面:对文本分类中的预处理流程进行了重点分析,为了克服对于数据集合中文本长短不一,尤其是短文本如分类信号少、数据噪声多数据冗余等问题,本文提出一种基于改进后的TF-IDF融合余弦相似度的短文本内容扩充算法(STCE)来增强短文本关键词集的类别属性,该方法有效提高了朴素贝叶斯文本分类器的分类性能,分类准确率平均提高了11.4%;提出一种基于LDA主题模型的短文本特征扩展方案,将该方法应用于朴素贝叶斯文本分类器,分类准确率平均提高了12.8%。在迁移学习方面:为了从而加强了两域特征联系,加深了对文本数据的挖掘,通过分析文本数据中语义相近或相似的词汇对表达文本信息的重要意义,提出一种基于语义相似性的公共特征空间构造方法(CFSC),将两域中语义相似性较高的特征词汇与两域共同词汇结合,构造为两域的共同特征,从而提高了分类器的分类准确率,分类准确率平均提高了7%。在基于迁移学习的文本分类方面:对本文提出的STCE算法和CFSC充分结合,结合后的算法,充分利用了本文提出的前两种算法的优势,STCE算法对长短文本进行特征对齐,CFSC加强迁移学习中目标领域和源领域的特征联系,从而使基于迁移学习的文本分类性能得到了进一步提升,分类准确率平均提高了13.7%。本文通过短文本内容扩充和特征扩展,优化文本分类过程中的预处理流程,降低了由短文本特性对分类性能的影响;通过构建目标领域和源领域的公共特征空间增强两域之间的特征联系,对基于迁移学习的文本分类性能有了明显改进。
其他文献
在物联网的发展中,物联网设备的能量供给问题是制约物联网大规模发展的关键问题之一。传统的有源物联网节点体积大、成本高、寿命短、维护困难,而无源感知的提出,解决了这一
本论文选择了三种含N配体[二-吡啶-(3,2-d:2,3’-f)-二氮萘(dpq)、N,N′-双(4-亚甲基吡啶)-1,4-苯二甲酰胺(bmpbdca)和N,N′-双(3-吡啶)-2,5-噻吩二甲酰胺(bptdca)]作为中性配体,以不同二
全球的汽车保有量连年逐渐增加,道路上的车流量越来越大,交通拥挤和交通安全已经成为了目前全球关注的重点话题。近年来我国汽车工业和国民经济飞速发展,早已成为了汽车保有量大国,但随之而来的是我国的交通事故发生数和交通事故死亡率也居高不下,这成为了我国亟需解决的问题。研究发现大多数的事故是驾驶员注意力不集中造成的,自动紧急制动系统(AEB)可以有效的避免或减少此类事故的发生,因此该系统的开发和测试评价非常
近年来超临界二氧化碳(scCO2)因其所具有的诸多优势而备受关注。ScC02安全、廉价、可再生、化学惰性无链转移、临界状态容易实现等。而更为重要的是,scCO2的物理化学性质能够
对于一个非增的非负整数序列π=(d1,d2,...,dn= 如果π是某个n阶简单图G的度序列,则称π是可图序列,并称G是π的一个实现。给定一个图G,可图序列π称为是蕴含G可图的,如果π
目的:本研究旨在通过观察2型糖尿病患者有无视网膜病变患者的视网膜病变与短期血糖波动、血清1,5-脱水葡萄糖醇(1,5-anhydroglucitol,1,5-AG)、免疫蛋白酶体亚基LMP-10(Immunoproteasome LMP-10,LMP-10)之间的关联。方法:选取2019年3月至2019年12月于我院住院治疗的2型糖尿病(type 2 diabetes mellitus,T2DM)
陕西物流业在近年来得到了较为全面的发展,产业布局基本形成,形成了系统的物流产业体系。但就目前陕西物流业的竞争力水平看,其缺乏竞争优势,因此如何客观评价衡量陕西物流业竞争力水平,依据竞争力评价结果提出物流业竞争力提升策略尤为重要。本文针对陕西物流业发展的现状特征,通过对陕西物流产业的竞争力表现、影响因素进行分析,构建了陕西物流业竞争力评价指标体系,指标体系以产业资源、产业产出、知识创新、产业环境、服
稻槎菜(Lapsana apogonoides)为菊科植物,具有清热解毒,利咽透疹,治痢及虫蛇咬伤等功效。为民间常用中草药。但目前国内外对稻槎菜的化学成分及药理药效研究文献几乎处于空白
脑机接口(Brain-computer interface,BCI)是一种能够在大脑和外部设备之间建立直接连接的交流与控制接口,主要应用于残疾人功能辅助和康复领域。基于P300的脑机接口由于分类
物联网技术由于其人与物之间的信息交互方式,对于以数据信息为中心的当代信息技术领域具有重要意义。无线传感器网络(Wireless Sensor Network,简称WSN网络)作为物联网的重要