基于特征扩展的半监督协同短文本分类方法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:ZYXN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:短文本分类是数据挖掘的一个重要方面,半监督学习可以有效的解决标签数据不足的问题。然而,短文本数据的稀疏性极大的限制了半监督学习算法的应用。因此本文提出一种基于特征扩展的半监督协同短文本分类方法。该方法能改善文本的稀疏性问题,实验结果表明,本文所提方法可以有效的提高已有半監督算法的分类精度。
  关键词:稀疏性;分类精度;半监督算法;短文本分类
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)29-0205-03
  Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.
  1引言
  随着互联网的发展,网络文本如博客、微博、产品评论等也随之大量涌现,这类数据包含了大量有价值的信息,然而这类数据往往缺失标签信息,因此,研究半监督的文本分类算法具有十分重要的意义。
  半监督算法旨在利用少量的标签数据和大量无标签数据构建高性能分类器,解决标签数据不足的问题。当前的半监督算法主要分为增量式半监督学习算法和基于图的半监督学习算法。增量式半监督学习算法[1][2],以迭代方式根据某种选择方法选择部分较为信任的样本加入标签数据集来对分类器进行重新训练。而基于图的半监督学习算法如[3],将样本表示成图中的顶点,样本间的相似性表示成顶点间的边,迭代的将样本的标签通过图传递给未标记文本。这些方法一定程度上解决了样本标签数据不足问题,提高了最终的分类精度。
  然而在文本分类中,数据普遍具有的稀疏性,从而极大的限制了半监督算法的运用[4],这在网络文本上尤其明显。在增量式半监督学习算法中,数据的稀疏性使得特征出现的频率不高,在标签文本中训练的分类器很容易出现过拟合现象,导致分类精确度较低,影响了增量式半监督学习算法的后续迭代过程[5]。
  本文提出一种基于特征扩展的半监督协同短文本分类方法,该方法首先利用无标签文本数据统计特征间的共现关系,根据该共现关系计算特征间的相似度,然后针对文本中未出现的特征,计算特征与该文本中所有特征的相似性,用相似性较高的部分特征扩充原有特征空间,最后分别在原始数据和扩展数据上训练分类器,迭代的选择预测标签一致的无标签文本加入训练集。
  2 基于特征扩展的半监督协同短文本分类方法(co-self-training svm)原理
  2.1基本思想
  给定仅包含少量标签的文本数据[L=xi,yimi=1]和大量无标签数据[U=(xi)ni=m 1],(m<  首先,利用特征在文本中的频率作为权重对x进行向量化表示,[x=],其中[tffi,x]为特征[fi]在文本[x]中出现的次数。文本数据普遍具有一定的高维稀疏性,即大多数[tffi,x]值为0,从而影响分类精度。因此,本文通过扩充样本的特征空间来改善文本的稀疏性,然后利用半监督算法训练得到一个高效的分类器。
  2.2特征扩展方法
  3.3方法准确率对比
  表1列出了算法的实验结果对比,从表中可以看出,modified self-training svm算法和modified LP算法实验结果平均都大于基本的self-training svm算法和LP算法一个百分点,这证明了本文频率扩展方法可以有效的改善文本的稀疏性,提高半监督学习算法的效率,同时,本文提出的co-self-training svm算法实验结果高于所有的其他算法的实验结果,这显示了本文算法的有效性。
  4 本文小结
  针对半监督环境下短文本数据的稀疏性问题,本章提出一种基于特征扩展的半监督协同短文本分类方法,首先使用频率扩展方法改善文本的稀疏性,并使用扩展后文本和原始文本协同训练半监督算法。实验表明,在相同的数据集上,本章提出的算法在文本上分类性能优于所有其他基本算法。
  参考文献:
  [1] 郑文静,李雷. 基于聚类核的半监督情感分类算法研究[J].计算机技术与发展,2016(12):87-91.
  [2] 苏艳,居胜峰,王中卿,等.基于随机特征子空间的半监督情感分类方法研究[J].中文信息学报. 2012(04):85-90.
  [3] 郭涛,李贵洋,兰霞.基于图的半监督协同训练算法[J].计算机工程与设计.2012(09):3584-3587.
  [4] 孙学琛,高志强.基于半监督学习的短文本分类方法[J].山东理工大学学报(自然科学版).2012(01):1-4.
  [5] 王珏,周志华,周傲英.机器学习及其应用[M].北京:清华大学出版社,2006.
  [6] 黄建校,邵曦. 一种改进的SVM增量学习算法研究[J].无线互联科技,2017(03):46-49.
  [7] 刘家辰.集成单类分类算法及其应用研究[D].西安电子科技大学,2015.
  [8] 冯爱民.结构驱动的单类分类器设计及拓展研究[D].南京航空航天大学,2011.
  【通联编辑:唐一东】
其他文献
今天,两年一届的中国聂耳音乐(合唱)周开幕,让我们再次相聚在美丽的玉溪大地。我们为第三届中国聂耳音乐(合唱)周如期到来感到由衷的高兴,表示衷心的祝贺,并特别向关心支持云南音乐发
草原草原千里茫茫草原草原万里清爽这片草原草原如我们万年的母亲这片草原草原是我们万年的家园
<正>~~
期刊
“人生天地之中,若白驹过隙,忽然而已。”不知不觉中,新年又踏着轻盈的脚步缓缓向我们走来,生命犹如钟摆,在左右的摆动之中,让时间之轮重复地圆周运动,是前进还是倒退?每当这个时候,我
小美不仅仅是个化妆师,她还肩负着公关,外联等系列的责任。整天手拿化妆刷忙个不停,有时候小美也会停下来认真思索:要是当时没有下定决心一个人从老家跑到北京学造型,现在的自己会
当我离开家的时候,只有你把我挂在心头。风里你守在那路口,
10月12日,艺术家方涛在北京798艺术区红色空间举办其个人展览“记忆-片断”。方涛作品强调黑、白、灰与点,线、圈的结合,思考着温情和成长背后蕴藏着惊人的缜密思考力和宽广的胸
春风吹,百花开,大家来赶三月街,苍山脚下花潮涌,四面八方有人来。白族姑娘赶街来,手弹三弦笑颜开,彝家汉子打歌来,歌声飞出云天外,热闹和谐的三月街,赶得人人乐开怀。
摘要:采用基于球坐标系的病毒三维重构算法中球谐函数的计算非常复杂,在单机单核上耗时很长。通过分析,该文实现了一种基于OpenMP的多核并行方法,可以提高球谐函数计算速度,实验结果证明方法简单有效。  关键词:多核系统;并行计算;OpenMP  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)33-0083-02  结构决定功能,生物大分子同样如此。生物大分子三维结构