论文部分内容阅读
随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,如何对每个Web进行人名同一性判断是社会网络搜索的关键技术。为了从文本中抽取准确的特征并降低向量维度,本文给出了一个基于C—value和逆文档频率IDF的特征向量权值计算方法;实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法