基于自动编码器的跨领域文本分类研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ajdpwsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自动编码器被广泛用于跨领域文本分类任务,其中降噪自动编码器可以学到抽象、鲁棒的特征表示,在跨领域学习任务上取得令人满意的结果。在先前的工作中,降噪自动编码器将噪音系数设置为一个常量,然而,不同的跨领域任务因数据分布差异不同,对噪音系数敏感程度不同;此外,基于自动编码器在学习新的特征表示时,没有保存原始数据的局部几何结构信息,导致在原始特征空间距离较近的实例,可能在新的特征空间相距较远;而且在新的特征空间,源领域和目标领域之间的散度有可能变大,这给已有基于降噪自动编码器的跨领域分类方法带来了极大的挑战。针对上述问题,本文基于自动编码器,围绕文本数据的分类问题展开研究,主要工作如下:(1)针对不同的跨领域任务对噪音系数比较敏感问题,提出一种基于自适应噪音边缘降噪自动编码器(mSDA-AP)用于跨领域文本分类。该方法首先选取源领域和目标领域的共享特征词和特有特征词,并对特征进行加权以扩大极性较强的特征的比例;然后根据领域间共享特征词的分布差异计算噪音系数,并用该噪音系数对输入数据进行干扰;最后基于边缘降噪自动编码器(mSDA)获取新的特征空间构建分类器并对目标领域中未标记数据进行分类。实验结果表明该方法可以取得比基线算法更好的分类精度。(2)针对采用Frobenius范数衡量重构误差的自动编码器对异常数据比较敏感问题,我们提出了一种基于L2,1范数堆叠自动编码器(SRAAR)用于跨领域文本分类。该方法采用L2,1范数衡量原始特征空间和新特征空间的重构误差,在学习特征表示的目标函数中引入了流行正则化项和最大均值差异(MMD)项用于保存数据的局部几何结构信息和最小化领域间的分布散度。然后,基于新的特征表示构建分类器对目标领域样本分类。实验结果表明该方法在跨领域文本分类任务上性能优异。
其他文献
从废水中回收磷酸盐并提供新的磷肥来源是环境保护的主要关注点之一,磷作为动植物各种生命活动必备的营养元素,是一种不可再生的宝贵资源。工农业的迅猛发展对磷的需求量不断增大,在磷资源被大量消耗的同时,废水中大量的磷却被排放到水体中,不仅造成水体富营养化,还因无法将之回收利用而浪费了宝贵的磷资源。所以,将磷作为一种资源物质从废水中进行回收利用具有重要的现实意义。而通过流化床鸟粪石结晶法不仅可以去除磷酸盐,
在新时期背景下,土地整理的内涵和外延不断更新与拓展,已成为推进我国农业现代化进程,加快新型城镇化发展,统筹城乡共同发展的重要抓手。然而,在制订区域土地整理规划后,如何
借助GeoGebra构造包络现象的可视化教学情境,并以折纸问题的数学解释和函数最值的另类解法为例,探讨包络问题在中学阶段的教育价值.
应用晶格能极小化技术计算了19种磷酸铝分子筛的骨架晶格能,从计算结果这些磷酸铝分子筛彼此间的晶格能相差很小,而与磷酸铝致密相块磷铝矿(Berlinite)相差48~127kJ/mol,据此可以解释磷酸铝分子筛骨架结构
毛细管电色谱(简称CEC)是指用电场力驱动的微柱液相色谱[1,2].目前CEC是国际上分离分析技术的研究热点之一,在我们以前的工作中[3],曾对毛细管电色谱的操作特性进行了研究,证实了CEC确是一种高效实用
在2016年11月29日举行的“第八届高中青年数学教师优秀课展示与培训活动”中,展示了“函数y=Asin(ωx+φ)的图象”一课.在这节课上,执教教师准确领会教材编写意图,把握教材的本质;坚
2007年回望1997年东南亚爆发的金融危机,意蕴颇深。10年前,危机引发了全球资本市场的动荡,其波及之广、速度之快、破坏之深,令全球为之震惊。  从东南亚金融危机中可以看出,金融全球化确实加大了市场风险:  其一,东南亚金融危机使亚洲人民资产大为缩水。其二,东南亚金融危机使亚洲国家的社会秩序陷入混乱。其三,东南亚金融危机使国家政权不再稳定。亚洲金融危机爆发后,由于社会动荡,经济萧条,导致人们对政
在复数教学中,有许多问题对青年教师形成困扰,如教学目标的制定、教学情境的创设、复数概念的产生与发展。甚至包括无穷集和复数大小的比较等,文中对此阐述了一些个人见解.
随着社会的进步以及科学技术的发展,现代工业对钢的性能和质量的要求日益严格,这就需要在原有精炼基础上提出更优化的钢液净化技术。钢液中夹杂物的研究对洁净钢的冶炼具有重