论文部分内容阅读
特征选择和聚类算法是文本分类领域的两个重要问题,特征集的大小与好坏决定了信息处理的速度和精度,聚类算法决定了文本分类结果的正确率。但是,当前的特征选择算法存在着需要预先设置阈值、对数据集中样本分布过度依赖等问题。相应地,特征选择之后的聚类过程中,存在着需要固定聚类中心数目、忽略样本隶属程度和样本对聚类影响等缺点。本文参考几种经典的特征选择方法,同时鉴于多目标优化思想在寻找Pareto最优解的优势,将粒子群多目标优化算法与特征选择算法相结合,提出一种基于进化多目标优化的特征选择方法——EMOO-FS算法。该算法对特征属性进行分析,选择两种分别在平衡数据集和非平衡数据集中表现较好的特征属性,将两种属性进行推导构成多目标优化模型,最后使用进化多目标优化的方法找到一组均衡的特征构成特征子集,使得该子集可在样本分布未知的情况下较好的代表样本的实际情况。EMOO-FS算法突破了传统算法仅仅针对一个特征属性进行筛选的手段,克服了对数据集的依赖。针对降维后的样本集,在文本聚类的过程中,本文既考虑到样本对所在类别的隶属度,又分析了样本对聚类的一种影响程度。因此,本文提出了混合Fisher线性准则思想的一种模糊的聚类算法——FDC。这种双向的思考使得本文提出的FDC算法能够克服对聚类中心数目的依赖,动态的生成聚类簇,公平的得到聚类结果。本文通过仿真实验,使用两种数据集对EMOO-FS算法和IG、MI、CHI的F1测度和M1测度进行比较。实验结果证明了该算法能够在样本分布未知的基础上,找到一组均衡的特征集并取得较好的分类效果。使用多种数据集对FDC和KM、FCM算法进行正确率和随机值的比较。实验结果证明该算法能够动态的决定聚类数目,并在多类别标签数据集和平衡数据集上获得较好的分类效果。