论文部分内容阅读
摘 要:社交网络中的文本种类数量存在极大的差异,不同领域的话题分布极不平衡,而在社交网络文本数据中进行文本聚类对经济生活具有重要意义。该文针对文本聚类展开研究,结合非平衡文本的特点、文本特征的提取、聚类常用的算法进行实验。
关键词:社交网络 非平衡文本 聚类方法
中图分类号:TP393 文献标识码:A 文章编号:1674-098X(2016)05(a)-0090-02
随着信息技术的飞速发展,网络已经广泛深入现代社会的工作和生活之中,据第36次《中国互联网络发展状况统计报告》显示,截至2015年6月,我国网民规模达6.68亿,互联网普及率为48.8%;社交网络作为互联网中最活跃的角色之一每天产生数以亿计的数据,主要是文本数据。社交网络中的话题有的可能在短时间里积攒成千万甚至亿级别的热度,而同时同一类别的某个话题可能只有不到10万的热度,针对社交网络中话题体现出的非平衡性进行聚类研究具有很重要的意义,有助于提供更接近真实的汇总信息,更便捷地使用网络资源。
1 非平衡文本聚类的研究方法
文本聚类是自然语言处理的一个重要领域,聚类分析原来是统计学机器学习领域研究的课题,近几年随着数据挖掘的兴起,将文本挖掘引入数据挖掘的概念中。文本分析主要分为聚类和分类两种分析方法。文本聚类是根据文本数据的不同特征,按照事物间的相似性,将其划分为不同数据类的过程。聚类和分类是人类认识自然的基本方法,人类经过生活经验和社会活动形成对大千世界的认识观,比方说我们将很自然地将天空中的鸟分为鸽子、燕子、老鹰等,这是对生活经验的总结是典型的分类行为。至于为什么将一种鸟称为鸽子、燕子或者老鹰,是从它们的体型、颜色、喙长、食物链等级等特征总结出来的,这个总结特征的过程就属于聚类分析过程中的特征值提取的研究内容,根据这些鸟特征的不同划分为不同的种类便是一个聚类过程。
文本聚类的基本流程是经典的三步走流程:文本表示、聚类算法、聚类结果分析。文本表示过程报过文本特征提取、机器语言表示,经过文本表示过程将试验样本表示成计算机可以識别的数据,作为聚类算法的输入数据。聚类算法是聚类分析的主体工作部分,经过聚类算法处理将起初离散的文本数据聚沙成塔,形成各个文本簇,或者叫作类的集合;聚类结果分析是对聚类结果进行综合评价,评价的规则主要有两个:(1)簇(类)内元素差距越小、簇(类)与簇(类)之间差距越大越好;(2)聚类结果与人工判断的结果差距越小越好。
非平衡文本的本质是在一个文本数据集中一种或多种领域的文本数据在数量上的不平衡,例如在社交网络中获取20 000个话题作为实验样本,其中包含16 000个属于娱乐领域,2 000个属于科技领域,1 000个属于经济领域,1 000个属于文学领域。对此数据集进行聚类分析,由于样本数量的不平衡,在聚类分析中提取的文本特征值数量也不确定。文本特征值数量的不平衡直接影响到聚类分析结果的精确度。因此,基于非平衡文本的聚类方法的研究力图更准确地对社交网络中的文本数据进行聚类研究。实际上,在社交网络中话题的分布十分不均衡,同一时间内话题热度从十万到千万甚至到数十亿,因此将该时间段中的话题进行聚类远比例子中提出的问题复杂得多。除此之外,话题在产生和传播过程中的特定时间段各个话题的数量同样是动态的、不平衡的,因此基于非平衡文本聚类的算法要具备的特征有以下几方面。
(1)动态性,可以容纳新出现的文本数据而不会剧烈影响聚类的结果。
(2)稳定性,对文本的描述错误不会带来严重的影响。
(3)时间无关性,文本输入的顺序与最后的聚类结果无关。
2 文本表示
2.1 文本表示模型
文本作为信息的载体,将原始文本信息表示成计算机形式信息的过程称为文本表示的过程。
现有的文本表示模型有布尔模型、向量空间模型、概率模型、n-Gram模型。根据话题文本的特征,我们选择向量空间模型。向量控件模型是有G.Salton等人于20世纪60年代末提出,并成功应用于SMART系统,是目前最为成熟和应用最为广泛的文本表示模型之一。向量空间模型以及相关的技术,包括特征项的选择、加权策略,以及采用相关反馈进行查询优化等技术,在文本分类、自动索引、特征检索等许多领域得到了广泛应用。
向量空间模型的基本思想是:前提假设文本所表达内容的特征和构成文本的某些特征项的出现频率有关,与这些特征项的顺序或位置无关。也就是说可以通过选取文本的特征值,计算特征值在文本中的出现频数和在整个文档集合中出现的频数来表示文本承载的内容。
特征项是文本中含有的具有领域特征性的基本单位(字、词、词组或短语),文本特征值的提取是文本聚类的重要环节,主要方法根据方式主要分为基于统计和基于语义两类,经典的基于统计的方式是特征项权重计算公式:
IF权值反应的是特征值在原文本中的重要程度,出现频数越多说明比重越大,反之越小。IDF反映的是特征值承载的信息度,如果一个特征值只出现在一个或少量几个文本中很可能说明该特征值能更好地代表该文本,因为特征值的相异程度越高往往代表的意义更鲜明,此时根据公式IDF值相应的更大,突出文本特征性。TF-IDF是基于统计的权重计算方式,所以采集样本数量越多则最终结果越精确。
2.2 非平衡文本样本的平衡化
非平衡文本数据集由于样本数量的差距,根据文本特征的提取规则,在文本特征提取过程中同一个特征值在文档中出现的频数会差异很大。即IF值增益效果会比IDF值的削弱效果大得多。根据数据集数量的不同有研究者改进了TF-IDF方法称之为ITC方法。ITF方法综合文本长短和文本数量的差距将特征值权重进行同一化,特征值的权值取值范围规定在[0,1]之间。公式表示如下:
3 K-Means聚类分析 K-Means聚類算法是数据挖掘领域中常用的基于划分的聚类算法。基于划分的聚类算法的基本原则是:(1)假定数据集中的每个元素都只属于某一个类别;(2)每个类别中都至少包含一个元素。K-Means算法是典型的基于划分的聚类算法。算法思想如下。
(1)选取K的值(k的值的选取是关键)。
(2)随机在数据集中选取类簇的初始中心
(4)再一次统计K的值,类簇中全部数据对象的算数平均值即为K。
(5)判断是否结束,否者继续(3)(4)步骤。
根据算法思想可以看出K-Means算法是基于贪心算法,可以保证局部最优(每个点都归并在相似度最高的中心处),但并不是局部最优,这是因为中心点选取时造成的误差是后面算法无法改变的。K–Means算法的优点很明显:(1)不受范围影响;(2)受顺序影响较小;(3)凸型聚类效果好。
4 实验分析
此次实验对1000个原始文本进行聚类,其中600个来自科技领域,200个来自娱乐领域,100个来自体育领域,100个来自经济领域。实验环境采用OSX Yosemite10.10.5、i7CPU2.2 GHz、Memory16GB频率1 600 MHz,编程语言为Python,使用传统TF-IDF和改进后的ITF建立的向量进行K-Means聚类算法分析结果对比(见表1)。
经过实验分析可以看到ITF可以较好地提高小文本集的权重进而提高准确率。
参考文献
[1]He Haibo,Garcia E A.Learning from imbalanced Data[J].IEEE Transactions on Knowledge and Data Enginering,2009, 21(9):1263-1284.
[2]Kawai Y,Fujita Y,Kumamoto T.Using a Sentiment Map for Visualizing Credibility of News Sites on the Web[C]//Proceedings of WICOW 2008.California:ACM,2008:53-58.
[3]何金凤.基于中文信息检索的文本预处理[D].电子科技大学,2008.
[4]Ming Zhao,Jianli Wang,Guanjun Fan.Research on Application of Improved Text Cluster Algorithm in intelligent QA system[C]//Genetin and Evolutionary Computing,2008.WGEC 08.Second International Conference on 2008 IEEE,2008:463-466.
[5]Z.Huang.Extensions to the k-means algorithm for clustering large date sets with categorical values[J].Data Mining and Knowledge Discovery,1998(2):283-304.
[6]周昭涛.文本聚类分析效果评价及文本表示研究[D].中国科学院技术研究所,2005.
关键词:社交网络 非平衡文本 聚类方法
中图分类号:TP393 文献标识码:A 文章编号:1674-098X(2016)05(a)-0090-02
随着信息技术的飞速发展,网络已经广泛深入现代社会的工作和生活之中,据第36次《中国互联网络发展状况统计报告》显示,截至2015年6月,我国网民规模达6.68亿,互联网普及率为48.8%;社交网络作为互联网中最活跃的角色之一每天产生数以亿计的数据,主要是文本数据。社交网络中的话题有的可能在短时间里积攒成千万甚至亿级别的热度,而同时同一类别的某个话题可能只有不到10万的热度,针对社交网络中话题体现出的非平衡性进行聚类研究具有很重要的意义,有助于提供更接近真实的汇总信息,更便捷地使用网络资源。
1 非平衡文本聚类的研究方法
文本聚类是自然语言处理的一个重要领域,聚类分析原来是统计学机器学习领域研究的课题,近几年随着数据挖掘的兴起,将文本挖掘引入数据挖掘的概念中。文本分析主要分为聚类和分类两种分析方法。文本聚类是根据文本数据的不同特征,按照事物间的相似性,将其划分为不同数据类的过程。聚类和分类是人类认识自然的基本方法,人类经过生活经验和社会活动形成对大千世界的认识观,比方说我们将很自然地将天空中的鸟分为鸽子、燕子、老鹰等,这是对生活经验的总结是典型的分类行为。至于为什么将一种鸟称为鸽子、燕子或者老鹰,是从它们的体型、颜色、喙长、食物链等级等特征总结出来的,这个总结特征的过程就属于聚类分析过程中的特征值提取的研究内容,根据这些鸟特征的不同划分为不同的种类便是一个聚类过程。
文本聚类的基本流程是经典的三步走流程:文本表示、聚类算法、聚类结果分析。文本表示过程报过文本特征提取、机器语言表示,经过文本表示过程将试验样本表示成计算机可以識别的数据,作为聚类算法的输入数据。聚类算法是聚类分析的主体工作部分,经过聚类算法处理将起初离散的文本数据聚沙成塔,形成各个文本簇,或者叫作类的集合;聚类结果分析是对聚类结果进行综合评价,评价的规则主要有两个:(1)簇(类)内元素差距越小、簇(类)与簇(类)之间差距越大越好;(2)聚类结果与人工判断的结果差距越小越好。
非平衡文本的本质是在一个文本数据集中一种或多种领域的文本数据在数量上的不平衡,例如在社交网络中获取20 000个话题作为实验样本,其中包含16 000个属于娱乐领域,2 000个属于科技领域,1 000个属于经济领域,1 000个属于文学领域。对此数据集进行聚类分析,由于样本数量的不平衡,在聚类分析中提取的文本特征值数量也不确定。文本特征值数量的不平衡直接影响到聚类分析结果的精确度。因此,基于非平衡文本的聚类方法的研究力图更准确地对社交网络中的文本数据进行聚类研究。实际上,在社交网络中话题的分布十分不均衡,同一时间内话题热度从十万到千万甚至到数十亿,因此将该时间段中的话题进行聚类远比例子中提出的问题复杂得多。除此之外,话题在产生和传播过程中的特定时间段各个话题的数量同样是动态的、不平衡的,因此基于非平衡文本聚类的算法要具备的特征有以下几方面。
(1)动态性,可以容纳新出现的文本数据而不会剧烈影响聚类的结果。
(2)稳定性,对文本的描述错误不会带来严重的影响。
(3)时间无关性,文本输入的顺序与最后的聚类结果无关。
2 文本表示
2.1 文本表示模型
文本作为信息的载体,将原始文本信息表示成计算机形式信息的过程称为文本表示的过程。
现有的文本表示模型有布尔模型、向量空间模型、概率模型、n-Gram模型。根据话题文本的特征,我们选择向量空间模型。向量控件模型是有G.Salton等人于20世纪60年代末提出,并成功应用于SMART系统,是目前最为成熟和应用最为广泛的文本表示模型之一。向量空间模型以及相关的技术,包括特征项的选择、加权策略,以及采用相关反馈进行查询优化等技术,在文本分类、自动索引、特征检索等许多领域得到了广泛应用。
向量空间模型的基本思想是:前提假设文本所表达内容的特征和构成文本的某些特征项的出现频率有关,与这些特征项的顺序或位置无关。也就是说可以通过选取文本的特征值,计算特征值在文本中的出现频数和在整个文档集合中出现的频数来表示文本承载的内容。
特征项是文本中含有的具有领域特征性的基本单位(字、词、词组或短语),文本特征值的提取是文本聚类的重要环节,主要方法根据方式主要分为基于统计和基于语义两类,经典的基于统计的方式是特征项权重计算公式:
IF权值反应的是特征值在原文本中的重要程度,出现频数越多说明比重越大,反之越小。IDF反映的是特征值承载的信息度,如果一个特征值只出现在一个或少量几个文本中很可能说明该特征值能更好地代表该文本,因为特征值的相异程度越高往往代表的意义更鲜明,此时根据公式IDF值相应的更大,突出文本特征性。TF-IDF是基于统计的权重计算方式,所以采集样本数量越多则最终结果越精确。
2.2 非平衡文本样本的平衡化
非平衡文本数据集由于样本数量的差距,根据文本特征的提取规则,在文本特征提取过程中同一个特征值在文档中出现的频数会差异很大。即IF值增益效果会比IDF值的削弱效果大得多。根据数据集数量的不同有研究者改进了TF-IDF方法称之为ITC方法。ITF方法综合文本长短和文本数量的差距将特征值权重进行同一化,特征值的权值取值范围规定在[0,1]之间。公式表示如下:
3 K-Means聚类分析 K-Means聚類算法是数据挖掘领域中常用的基于划分的聚类算法。基于划分的聚类算法的基本原则是:(1)假定数据集中的每个元素都只属于某一个类别;(2)每个类别中都至少包含一个元素。K-Means算法是典型的基于划分的聚类算法。算法思想如下。
(1)选取K的值(k的值的选取是关键)。
(2)随机在数据集中选取类簇的初始中心
(4)再一次统计K的值,类簇中全部数据对象的算数平均值即为K。
(5)判断是否结束,否者继续(3)(4)步骤。
根据算法思想可以看出K-Means算法是基于贪心算法,可以保证局部最优(每个点都归并在相似度最高的中心处),但并不是局部最优,这是因为中心点选取时造成的误差是后面算法无法改变的。K–Means算法的优点很明显:(1)不受范围影响;(2)受顺序影响较小;(3)凸型聚类效果好。
4 实验分析
此次实验对1000个原始文本进行聚类,其中600个来自科技领域,200个来自娱乐领域,100个来自体育领域,100个来自经济领域。实验环境采用OSX Yosemite10.10.5、i7CPU2.2 GHz、Memory16GB频率1 600 MHz,编程语言为Python,使用传统TF-IDF和改进后的ITF建立的向量进行K-Means聚类算法分析结果对比(见表1)。
经过实验分析可以看到ITF可以较好地提高小文本集的权重进而提高准确率。
参考文献
[1]He Haibo,Garcia E A.Learning from imbalanced Data[J].IEEE Transactions on Knowledge and Data Enginering,2009, 21(9):1263-1284.
[2]Kawai Y,Fujita Y,Kumamoto T.Using a Sentiment Map for Visualizing Credibility of News Sites on the Web[C]//Proceedings of WICOW 2008.California:ACM,2008:53-58.
[3]何金凤.基于中文信息检索的文本预处理[D].电子科技大学,2008.
[4]Ming Zhao,Jianli Wang,Guanjun Fan.Research on Application of Improved Text Cluster Algorithm in intelligent QA system[C]//Genetin and Evolutionary Computing,2008.WGEC 08.Second International Conference on 2008 IEEE,2008:463-466.
[5]Z.Huang.Extensions to the k-means algorithm for clustering large date sets with categorical values[J].Data Mining and Knowledge Discovery,1998(2):283-304.
[6]周昭涛.文本聚类分析效果评价及文本表示研究[D].中国科学院技术研究所,2005.