结合半监督聚类的中文短文本分类技术研究

来源 :江苏大学 | 被引量 : 1次 | 上传用户:bladehit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,大量的短文本数据出现在网络中。如何挖掘这些数据中有价值的信息,这是当前研究的一个新热点。短文本具有高维稀疏性的特点,并且数量庞大、更新速度快,由此带来的标注瓶颈和概念漂移等问题,使得在短文本分类中使用传统的文本算法的效果不太有效。因此,有必要研究一种适用于短文本的分类算法以及系统。半监督聚类可以结合少量有标签样本和大量的无标签样本进行学习,有效地发现样本的分布特征。本文通过结合半监督聚类来提高短文本分类的性能,在一定程度上弥补了有标签样本的不足并改善类别不平衡和概念漂移的问题。本文主要研究内容如下:首先,提出了一种结合半监督聚类的新型短文本分类算法。针对短文本的高维稀疏特点,本文首先提出一种改进的半监督Kmeans算法,从距离度量和质心迭代方面进行了相应的改进。然后设计了一种融合算法将半监督Kmeans的预测结果与SVM的预测结果进行融合以进一步提高预测的准确率。该方法可以实现半监督聚类和分类算法在短文本分类上的优势互补,充分利用了短文本数据集中大量的未标记样本,同时改善了类别不平衡问题。其次,提出了一种结合半监督Kmeans和SVM的新型协同训练框架(SCC-Co-training),该框架利用半监督聚类和分类的差异性来提高泛化能力。通过迭代训练,进一步实现半监督聚类算法与分类算法的优势互补。在SCC-Co-traini ng框架下,重新定义了两个学习模型的目标函数进行了算法改进,改善了短文本分类领域所遇到的标注瓶颈和概念漂移的问题。最后,基于上述算法设计并实现了一个中文短文本分类系统,包括四个模块:(1)预处理模块。针对原始的短文本数据进行了解析、分词、去停用词等一系列操作。(2)特征处理模块,实现了短文本数据集的特征表示及选择。(3)算法训练模块,基于处理好的短文本数据集并利用本文提出的算法进行模型的训练。(4)文本分类模块,实现了对测试文本的预测以及结果文件的保存。通过在11个短文本数据集上的实验结果与其他短文本分类算法的比较,证明了本文提出的算法的有效性,一定程度上解决了有标签样本不足的情况并改善了类别不平衡以及概念漂移的问题。
其他文献
近年来,我国LNG产业发展迅猛,市场规模急剧扩张,很多民营企业纷纷加入LNG市场,加剧了企业间的竞争。G公司作为国内第一批进入LNG市场的企业,虽然是国内LNG企业中知名企业,但
<正>据相关数据统计,2016年全球电子竞技比赛观看人数已突破3亿,忠实粉丝的数量与过去两年前相比暴增170%,电竞玩家的快速扩增直接将16年全年人们在显示器前花费的总时长推升
参考译文:王先生:早上好,女士。很高兴您到我们展位参观。能为您做点什么?参观者:我是C&C公司的贸易代表,我在展会资料上看到你们的产品信息,想了解一下关于你们真丝面料服装
美国得克萨斯大学奥斯丁分校丹尼尔&#183;伯尼克与他的研究团队,此次研究了性别和饮食在脊椎动物肠道菌群组成上的影响。他们分别使用了野生鱼类(棘鱼和河鲈)、人工养殖棘鱼、实
民居是人民群众对待居住问题智慧的显示,是民族文化具体的体现,也是建筑创作的重要源泉。民居在建筑发展的历史长河中,具有顽强的生命力,蕴藏着丰富的文化内涵。在现代建筑发
三星时差定位是星载高精度无源定位的重要形式,需要深入研究三星编队构型设计来改善其高精度定位性能。从三星时差定位原理出发,推导了地理经纬度位置下的误差分析模型,提出
问:过去举办的业内展会,你认 为还存在哪些不足? 答:从我这几年对业内的了解情 况来看,国内展会中而临一些比较集 中的问题。一是国际化程度不高。在 这方而,中国(上海)美容
随着时代的发展,越来越多的女性成了职场的佼佼者,如何在自己同样繁重的工作压力下更胜人筹?如何在老板和员工的狭缝中自由自在的活着并塑造良好的个人魅力?那以下的招招你可要常
该文以某半潜式平台的系泊缆为对象进行疲劳性能研究,采用链-缆-链三段组成的悬链线式系泊缆。使用Harp软件,基于时域耦合方法计算系泊缆的动力响应,选取锚链与平台主体连接
喷嘴是海底挖沟机中的重要元件,该文采用FLUENT软件对其进行数值模拟,对喷嘴的射流特点进行研究,分析了喷嘴进口压力、流量对射流冲击力衰减变化的影响。结果表明,射流在淹没