论文部分内容阅读
随着互联网的飞速发展,无论是网页的数量还是网站的数量都呈现了巨大的增长,给人们快速有效的获取有用信息带来了巨大的挑战,因此,随着基于网页的web挖掘技术的成熟,基于网站的web挖掘也成为了人们越来越关注的问题,如逐渐流行的网址导航功能都是以网站分类为基础的。网站聚类是web挖掘的一个重要方向,对于发现站点间关系有重要意义,可用于网络社区发现、网站相似性分析、用户导航等多方面。本文的主要工作是通过利用自然语言处理等技术对网站的内容分析处理,采用网站的向量空间模型表示方法,通过采用多种网站特征选择方法、相似度计算法以及聚类算法,对基于内容的网站聚类进行研究,从而找到一种具有良好聚类效果的基于内容的网站聚类算法。首先,由于汉字和汉字之间不像英语那样有明显的分割符,本文首先对中文文本进行分词处理。本文采用的是基于重复串的无词典分词方法,主要包括分词预处理,汉字结合模式的获取和汉字结合模式的过滤三个部分。该部分的结果是获得了具有相对完整的上下文语义的词条,并且作为网站特征词提取部分的候选特征词条集。其次,由于网站是大量网页的集合,中文分词部分获得的候选特征词条集数目庞大,如果用它们全部作为网站特征,则向量空间的维数将非常大,不但影响聚类的精度,且计算的复杂度相当大,因此需要进行特征选择来降维。本文提出了3种网站的特征选择方法,互信息,CHI和TFIWF的方法。然后采用局部特征选择和全局特征选择相结合的特征选择策略,从网站候选特征词条集中选出网站特征词,作为向量空间的各个维,建立网站的向量空间模型。最后,在上面的网站向量空间模型的基础上,本文分别采用了基于划分(k-means,二分k-means)、基于层次(凝聚的层次聚类)和基于模型(SOM)的聚类算法,并且对聚类算法中的相似度计算,分别采用了欧式距离,曼哈顿距离和余弦定理三种不同的方法,从而通过网站特征选择,相似度计算,聚类算法的不同组合,找到一种效果较好的基于内容的网站聚类算法。