论文部分内容阅读
由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。面对大规模的短文本形式的数据,如何快速而准确地从中获取所需的关键信息,进行文本挖掘或商业挖掘,短文本分类技术发挥着非常重要的作用,并且在用户兴趣挖掘、热点话题追踪、流行语分析、舆情预警等领域都有着广泛的应用前景。短文本分类包含文本的预处理、特征表示、特征选择、特征权重计算、构建分类器等步骤,特征选择是其中非常重要的一个环节。在短文本中,由于其长度较短,包含的有效信息较少,导致特征集维数非常高,准确而高效的降维就显得至关重要。特征选择是从原始特征集中挑选出对分类贡献最大的一组特征。一个高效的特征选择算法不仅能降低特征维数,还能提高文本分类的效果。因此,如何设计出一个高效的特征选择算法非常重要。本文针对上述问题主要做了如下工作:首先简要介绍了短文本分类的研究背景和意义,总结分析了短文本分类已有的研究成果,并重点介绍了短文本分类中特征选择算法已有的研究成果及研究热点,对文本分类所涉及到的理论基础和相关技术也进行了简要的阐述。特征选择算法的研究主要涉及两方面,即评价函数的设计和搜索策略的确定,针对特征选择算法如何设计评价函数的问题,本文考虑到样本特征的模糊性,将模糊熵应用到特征选择中,采用模糊熵来度量各特征的分类权重,并根据短文本分类的特点,采用类内类间分散度来设计模糊熵的隶属度函数,提出了一种基于模糊熵的短文本特征选择算法。仿真实验表明了该算法的有效性。针对常用特征选择算法存在特征子集大小阀值k难以确定的问题,取不同的k值获得的分类效果将会相差很大。本文结合粒子群优化算法概念简单,易于实现,具有很强的全局搜索能力的优点,提出了一种基于粒子群的短文本特征选择算法。首先采用模糊熵对原始文本集进行特征预选,然后对预选的特征集采用改进的粒子群优化算法进行第二次特征选择。为了克服粒子群的早熟收敛,利用云模型的优越性动态确定惯性权重;为了使粒子群具有更好的搜索效率,根据特征模糊熵的大小初始化粒子种群以及采用迭代变化阀值控制算法结束的条件。仿真实验表明了该算法的有效性。