【摘 要】
:
随着互联网的兴起,各种类型数据包括文本、音频和图像等以惊人的速度增加。而文本数据与音频和图像数据相比,它占用网络资源少,传输速率高,更易于被上传和下载。这使得网络资
论文部分内容阅读
随着互联网的兴起,各种类型数据包括文本、音频和图像等以惊人的速度增加。而文本数据与音频和图像数据相比,它占用网络资源少,传输速率高,更易于被上传和下载。这使得网络资源中大部分是以文本形式存在,因此,如何利用这些文本资源,构建模型挖掘出有用的信息,是近些年来研究者的一大目标。基于机器学习的文本分类方法不断涌现,更好的帮助人们组织文本、挖掘信息。传统的机器学习方法是在训练数据和测试数据分布一致的前提下进行的。然而,在一些现实世界中的应用,训练数据和测试数据来自不同的领域。在不考虑数据分布的情况下,传统的机器学习算法可能会失效,针对这一问题,近年来研究者提出了迁移学习的思想,即在处理这些数据源分布不均的问题时,利用相似的数据进行学习,并将学到的知识迁移到目标领域中,帮助目标领域任务的学习。迁移学习这一概念的提出,有效的解决了源领域和目标领域数据分布不同的问题。本文将迁移学习与模糊理论相结合来研究文本分类问题,主要研究内容如下:(1)针对传统文本分类方法的不足,详细描述了迁移学习的分类方法以及各类不同方法的基本思想、主要针对的问题以及存在的缺陷。(2)提出一种基于改进的模糊C均值(FCM)文本迁移学习算法,并解决了该算法中两个关键问题:利用自然邻居算法解决了传统k-means方法参数设定问题,并通过自然邻居集合对模糊隶属度进行初始化,有助于算法快速收敛;二是在模糊C均值聚类中,构建新的最优化目标函数,利用样本的自然近邻关系和伪标记信息(其中自然邻居关系包括源领域数据和目标领域数据),对样本在目标域空间的分类判别进行修正和增强,并通过重构与目标域适配性更强的特征集,从而达到文本分类模型从源域向目标域的学习迁移目的。(3)考虑到不同的简单分类器以及特征提取算法对本文提出方法的影响,本文在20 Newsgroups等数据集上设计了不同的实验。同时,将本文提出的算法与传统的SVM和朴素贝叶斯分类进行对比,实验结果表明,该算法具有较好的正确率,有效的解决了在训练数据和测试数据分布不一致的情况下的文本分类问题。
其他文献
口译是一种通过口头表达方式,将信息准确而快速地转化成另一种语言,从而实现交流目的的活动。由于口译本身的特点和现场的复杂性,译员常常需要“一心多用”,以求获得最大信息
随着信息技术的不断发展,信息爆炸使得信息量越来越大,信息利用率越来越低,推荐系统正被越来越多地研究和应用。本文介绍了推荐算法的相关知识,对协同过滤推荐算法的基本原理
目的:临床观察自拟祛瘀生新方对血瘀型女性药物流产完全流产率、孕囊排出所需时间、阴道流血持续时间、阴道流血量、尿HCG转阴情况、月经复潮所需时间、中医证候积分的影响。方法:将100例符合纳入标准的患者,随机分为观察组与对照组,各50例。对照组给予口服米非司酮片、米索前列醇片终止妊娠,观察组在对照组的基础上给予自拟祛瘀生新方终止妊娠,观察患者孕囊排出所需时间、阴道流血情况,阴道超声检查患者宫腔内妊娠物
近些年来,有机半导体微纳线及其阵列化受到人们的关注,主要是因为一方面它们具有质轻、价廉、柔性、大面积制备和电学性质易调制等优点;另一方面,阵列化在大规模制备高效率的
随着社会稳步发展和人民经济水平的不断提高,我国餐饮业一直保持着高速增长的态势。餐饮业行业规模和经营领域不断扩大,成为国内消费需求市场中增长幅度最高、发展速度最快的行业之一。与此同时餐饮行业也连带着有许多内部问题的产生,例如:食品安全保障问题、人力资源体制落后等问题,导致餐饮业面临发展瓶颈。企业的发展与绩效密不可分,为保证企业稳步发展,需要重视企业内部的人力资源管理系统。本文研究的A餐饮公司作为新生
由于近年来3D建模技术的快速发展,互联网上可用的3D模型库也随之出现爆炸式增长,越来越多的3D模型都可以方便地通过网络下载使用。这直接促使了3D形状检索技术的发展,即给出
本文为一篇英译汉翻译实践报告,翻译文本节选自美国拉乌尔·阿雷奥拉(Raoul A. Arreola)博士的著作《教师综合评价体系的建构》(Developing a Comprehensive Faculty Evaluat
药品质量是临床用药安全、有效的重要保障。中药复方制剂的成分复杂,传统的单一指标质控方法,已经不能代表中药复方制剂的质量优劣。建立较为全面的中药复方制剂质量控制方法
一直以来,每当提及时尚二字,人们总认为它是西方世界特有的产物,是属于西方国家的专有特权。的确,在时装业领域,无论是高级时装,还是工业化成衣,当今时尚业的走势大多都能在
大数据时代,个人所拥有的数据量正在呈现爆炸式增长,个人所需要处理的数据种类也趋于庞杂。面对人们日益增长的需求,基于物理存储介质的个人本地存储存在着便携性差,存储容量