搜索引擎聚类推荐系统研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:wenrou1323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的飞速发展和搜索引擎及其相关技术的日趋成熟,以Google、百度为代表的搜索引擎系统成为人们检索信息的重要工具。但是,现有的搜索引擎只是将返回结果进行简单的线性排列,而且对于每个特定的用户和多义的搜索词汇没有区分,返回结果机械而单一。文本聚类作为一种无监督的机器学习方法,将大量的信息聚合成少量有意义的信息簇,优化信息的组织处理,成为对搜索引擎返回结果进行有效组织和处理的重要手段。  本文对搜索引擎、文本聚类和推荐系统进行了深入研究,致力于构建一个以Lingo聚类算法为主要框架,对搜索引擎返回结果进行聚类处理并作出推荐的分布式系统。主要工作包括:多种数据接口满足个性化需求。本中文搜索引擎聚类推荐系统拥有本地文本数据接口、传统的搜索引擎数据接口和新兴的微博数据接口。本地的文本数据支持分布式存储模式。针对中文的文本处理。文本的预处理是聚类的基础工作,与英语等其他语言不同中文处理有其特殊性。本系统对文本预处理中的网页去噪、停用词过滤、中文分词和中文词库的管理等工作进行了深入研究,以达到较好的中文聚类效果。基于词性与位置的TF-IDF权重设置。TF-IDF是向量空间模型中最常用的权重计算方法,但是其仅仅只关注了词语的频率对权重的影响,而忽略了词语的词性以及词语在文档中的位置对权重的影响。因此,本系统将词语的词性和位置与传统的TF-IDF融合在一起,更能精确反映词语权重。大规模文本聚类。本系统将Lingo聚类算法中的SVD改造为分布式SVD计算,实现了Lingo聚类算法的分布式应用,可以对大规模的文本数据进行聚类处理。推荐系统。本系统采集了豆瓣网中300万用户对13万部电影的相关信息,包括电影的主要信息和用户对电影的打分。采用基于物品的协同过滤算法(Item-based Collaborative Filtering)。利用每个用户对电影的评分,构建电影与电影之间的相似度矩阵(item-item-similarities),并计算与每部电影相似度最高的前30部电影,为用户做出推荐。最后结合以上几个方面的研究,设计和实现了一个中文搜索引擎聚类推荐系统,可以对大规模的本地数据、百度搜索引擎返回结果和微博等数据进行聚类处理,并对电影可以作出推荐的综合型系统。实验证明,该系统紧跟新颖的微博数据、对聚类算法有较好的改进,并将搜索引擎、文本聚类和推荐系统很好的融合,具有较强的实用价值。
其他文献
在水下仿生领域,海豚优于鱼类的游动性能和减阻机制使得仿生机器海豚更适于成为研究对象,应用前景广阔。本文针对仿生机器海豚的建模、控制及其在水质监测中的应用开展研究,
混沌是一种貌似无规则的运动,是非线性动力学系统特有的一种运动形式,广泛地存在于自然界中。从20世纪90年代起,混沌同步控制已经成为一项重要的研究课题,在保密通信和人工智
步进电机是一种使用电脉冲作为控制信号的数字式执行机构,具有控制简单、开环性能好、无积累误差等优点,在航空航天、工业控制、办公自动化等方面具有广泛的应用。  步进电机
随着计算机网络技术的高速发展、信息系统业务处理过程的不断变化以及企业信息系统分布式需求不断增大,软件的规模和复杂性不断提高,如何提高软件生产率成为软件产业的当务之急
从上个世纪40年代以来,目标跟踪已经逐渐成为了一个备受关注的研究课题。它的应用价值首先体现在军事及航空领域,其中典型的应用包括雷达探测,声预警,导航,空中交通管制等。
游泳作为一项强身健体的大众运动,受到人们的普遍欢迎,但游泳池中频发的溺水事故也随时威胁着游泳者的生命安全。水质浑浊、人声嘈杂、自身注意力和精力有限等原因,都可能造
四轮智能车(以下简称四轮车)是典型的带有非完整约束的非线性系统。由于智能车技术应用具有广阔的市场和应用前景,因此有关智能车的研究受到了越来越多的关注。而轨迹跟踪是智
随着科技的进步以及人们对室内人员、车辆等物体定位需求的不断提高,室内定位技术的发展受到了广泛关注。其中,基于视觉的定位技术与其它定位方法不同,它通过视觉传感器获取信息
纳米技术(Nanotechnology)是指在原子与分子尺度上研究物质的特性和相互作用,以及利用这些特性制备纳米材料,制造纳米器件和系统。纳米尺度上的观测与操作是开展纳米科学研究
工件台作为光刻机三大核心部件之一,在光刻机研制中占据着重要作用,并对光刻机的特征尺寸(CD),套刻精度和产率有着重要影响。在国外,步进扫描工件台已经广泛应用于光刻机中。目前