论文部分内容阅读
随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采用通用的网络蜘蛛程序对海量信息进行采集,然而这样的采集结果是粗糙的,必然存在着大量的噪声数据,对数据的进一步分析处理带来不必要的影响。与此同时,一种良好的聚类算法也是文本分析过程的重要组成部分,面对Web文本的高维性特征,一些基于距离的相似度度量方法在某些方面已经体现出不足之处。例如在文本特征词空间中,由于受到向量的高维性影响必然存在着大量模很小,并且大部分特征位上的数值为零的向量,经过计算会发现,任何具有该特征的向量间相似度都很大,但是从文本语义上分析,文本所表述的内容并不相似,这正是高维数据与低维数据在向量表示上所体现的明显不同。因此基于一种适合高维文本相似性计算的方法,并能够有效地提高大规模Web文本集聚类准确性算法是本文主要的研究目标。基于上述分析,本文从Web文本采集过程入手,通过在数据采集过程中添加对文本解析与内容的相关性评估的步骤,针对高维Web文本的特点提出了一种数据基于引力为相似度衡量标准的计算方法,并以此为主线,对Web文本聚类算法进行了研究,本文主要工作包括以下几个方面:(1)在网络资源采集过程中,对传统网络蜘蛛系统进行了适当的改进,通过在爬行过程中进行网页内容的解析与相关度评价,从而实现初步过滤内容无关的网络资源,保证了下载数据集的有效性和相关性;(2)通过对传统网页解析系统原理的分析,本文提出了一种人工干预的半自动化模板生成工具,该工具的优势在于避免了对网页编码进行分析的复杂工作,同时所生成的模板具有良好的通用性,可以针对具有相同板式结构的一类网页进行有效的内容提取;(3)相似度度量方法中应用最为广泛的是基于欧式距离的度量方法,该方法的优点在于,其具有良好的数学理论依据,通过将文本对象转化为相应的特征词向量后,采用欧式距离度量方法可以直接进行相关的计算与结果的可视化展示。然而,文本向量模型一般具有高维特性,在高维空间中数据的分布无法用低维模型所表示,而数据在高维空间所拥有的特征也不能很好的体现。由此本文提出了一种兼顾欧式距离在低维空间计算优点的数据引力相似性度量方法,该方法的优点在于充分考虑到了传统欧式距离无法体现文本语义这个不足,强调了数据间属性的相关性,使其对不规则分布的样本也有较好的聚类效果;(4)由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法,将基于划分的聚类与基于密度的聚类方法相结合并予以改进,通过对对象密度的计算,以密度较大的对象为聚类中心进行聚类,从而降低了由于初始聚类中心选择偏差造成的影响,保证了更好的精度。实验结果表明本文提出的算法具有更准确的聚类结果,特别是在文本这样的高维、稀疏的数据中更是如此。