论文部分内容阅读
聚类和分类技术是数据挖掘中最有价值的技术之一,而软计算中的神经网络是聚分类中的主要技术之一。自适应谐振神经网络(Adaptive Resonance Theory:ART)不仅参考人脑神经元互连的物理模型,而且也借鉴人脑的学习机理,具备数据聚类的良好特性,目前国内外研究尚较处于发展阶段。文本挖掘中文本向量集往往表示为正交的高维空间,因而带来计算瓶颈和与实际应用背景不吻合的情况,研究特性良好的降维算法、现有空间的改进等都存在很大的发展余地。本论文提出了四种基于ART2神经网络的用于数据聚类的改进算法,克服了经典ART2神经网络输出无层次结构的缺点,均可形成动态的层次聚类结果,同时降低了警戒参数主观设置的要求。基于模、相位、空间密度的改进ART2算法1还克服了经典ART2算法警戒参数全局化、聚类与模无关的缺点,其通过按模和相位的综合评价,依据先前循环形成类别中的输入向量个数分类别修正警戒参数以实现按空间密度局部化警戒参数,在借鉴以前神经网络训练结果的基础上进行聚类;基于凝聚和迭代思想的改进ART2算法2通过迭代在人工交互下达到合理聚类结果,并计算出合理聚类结果所需的警戒参数范围值;迭代以及迭代中神经网络的输出都体现出有序的自组织特征,网络训练时间代价也在迭代中迅速下降;基于Hebb规则和泄漏竞争的改进ART2算法3借鉴了Hebb规则和泄漏竞争的思想,允许多个神经元获胜并计算获胜神经元之间的相关性;基于Hebb规则和冗余神经元思想的改进ART2算法4克服了过分依赖获胜神经元信息等不足,通过在竞争过程中同时考虑获胜神经元和其它神经元的信息以及Hebb规则来实现通过单个ART神经网络的层次聚类结果。本论文提出了一种基于随机映射的文本降维算法,在可控、低代价地充分逼近原始空间相似度计算结果和分类结果的情况下降低文本向量空间维数。在此基础上本论文还提出了一种基于随机映射的加速隐含语义索引算法,此加速算法将随机映射和隐含语义索引相结合,既可有效可控地降低空间维数,又可凸现语义联系,使得其用于分类算法在文本高维环境中具备实时性和高分类准确率。此外本论文提出了一种基于模式聚合和各维不同权重的改进KNN文本分类算法,在数据分析的基础上提出优化的模式聚合方法,并利用神经网络计算空间各维不同权重以克服VSM空间各维权重相等的缺点,可以在降低时间和空间复杂度的基础上,提高KNN算法的文本分类准确度。