论文部分内容阅读
伴随着互联网技术的飞速发展和搜索引擎及其相关技术的日趋成熟,以Google、百度为代表的搜索引擎系统成为人们检索信息的重要工具。但是,现有的搜索引擎只是将返回结果进行简单的线性排列,而且对于每个特定的用户和多义的搜索词汇没有区分,返回结果机械而单一。文本聚类作为一种无监督的机器学习方法,将大量的信息聚合成少量有意义的信息簇,优化信息的组织处理,成为对搜索引擎返回结果进行有效组织和处理的重要手段。 本文对搜索引擎、文本聚类和推荐系统进行了深入研究,致力于构建一个以Lingo聚类算法为主要框架,对搜索引擎返回结果进行聚类处理并作出推荐的分布式系统。主要工作包括:多种数据接口满足个性化需求。本中文搜索引擎聚类推荐系统拥有本地文本数据接口、传统的搜索引擎数据接口和新兴的微博数据接口。本地的文本数据支持分布式存储模式。针对中文的文本处理。文本的预处理是聚类的基础工作,与英语等其他语言不同中文处理有其特殊性。本系统对文本预处理中的网页去噪、停用词过滤、中文分词和中文词库的管理等工作进行了深入研究,以达到较好的中文聚类效果。基于词性与位置的TF-IDF权重设置。TF-IDF是向量空间模型中最常用的权重计算方法,但是其仅仅只关注了词语的频率对权重的影响,而忽略了词语的词性以及词语在文档中的位置对权重的影响。因此,本系统将词语的词性和位置与传统的TF-IDF融合在一起,更能精确反映词语权重。大规模文本聚类。本系统将Lingo聚类算法中的SVD改造为分布式SVD计算,实现了Lingo聚类算法的分布式应用,可以对大规模的文本数据进行聚类处理。推荐系统。本系统采集了豆瓣网中300万用户对13万部电影的相关信息,包括电影的主要信息和用户对电影的打分。采用基于物品的协同过滤算法(Item-based Collaborative Filtering)。利用每个用户对电影的评分,构建电影与电影之间的相似度矩阵(item-item-similarities),并计算与每部电影相似度最高的前30部电影,为用户做出推荐。最后结合以上几个方面的研究,设计和实现了一个中文搜索引擎聚类推荐系统,可以对大规模的本地数据、百度搜索引擎返回结果和微博等数据进行聚类处理,并对电影可以作出推荐的综合型系统。实验证明,该系统紧跟新颖的微博数据、对聚类算法有较好的改进,并将搜索引擎、文本聚类和推荐系统很好的融合,具有较强的实用价值。