基于混合聚类的个性化搜索研究

被引量 : 2次 | 上传用户:zqy61032526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的发展,互联网已经发展成为一个巨大的信息空间。如何在这样一个包含丰富数据的信息海洋中准确查找自己所需要的信息成为越来越多学者研究的内容。搜索引擎的出现为用户提供了一种有效、方便的从互联网上检索信息的方法,但伴随着信息媒体的层出不穷和当前用户需求的日益复杂,一个搜索引擎适合所有用户的搜索模型已不能满足当前的需要,个性化搜索引擎在这样的背景下应运而生。聚类是数据挖掘技术的一个重要分支,聚类算法所具有的特性对个性化搜索引擎的发展有着特殊的意义,本文分析了不同聚类算法的聚类过程和聚类数据的特性,重点研究了能识别不规则形状簇的密度聚类算法和聚类过程简单、高效的层次聚类算法,在分析个性化搜索引擎技术特点的基础上,设计了基于密度和层次的混合聚类算法HCPS(Hybrid Clustering in Personalized Search)。网页排序算法的研究在优化搜索结果方面发挥着重要作用,有助于提高个性化搜索引擎的准确率,本文设计了基于PageRank的个性化排序算法PRPS (Personalized Ranking in Personalized Search)。HCPS算法是在层次聚类的框架下,定义了簇间距离、簇的合并规则和算法迭代所需满足的条件,引入离群度作为数据隶属一个类簇的标准,HCPS算法在聚类的过程中考虑了个性化搜索引擎中用户兴趣这一关键因素,使聚类结果经排序后输出的数据更接近用户搜索意图。PRPS算法通过分析PageRank算法的迭代过程,结合用户兴趣模型和HCPS算法聚类结果,根据各自的影响程度分配不同的系数,重新计算PRank值来代替原来的Page-Rank值,是一种基于PageRank的改进算法。PRPS算法根据用户对网页兴趣的大小及网页的重要程度对搜索结果进行排序,解决了PageRank主题漂移问题,使排序后的数据按照网页的重要程度和与用户搜索的相似度大小排序。本文设计并实现了一个基于密度和层次聚类的个性化搜索引擎实验系统,通过对实验数据结果的分析,HCPS和PRPS算法在搜索的准确性上取得了较好的效果。
其他文献
GPS-RTK具有定位精度高、无需通视、测量时间短等优点。通过在某市送变电工程约15 km2的数字测图区应用RTK技术结合全站仪进行数字测图实验。实验对比中,常规测量的测图是每
<正>受限于国内企业的规模和财力,国内自保公司队伍扩大尚需时日。自保公司来了。有媒体报道称,在日前召开的保监会主席办公会议上,已经审议通过了中石油筹建自保公司一事,可
<正>互联网移动支付已成为连通线上、线下的重要桥梁,社会效益、经济效益均已初步显现。在腾讯、阿里巴巴"打车补贴"、"新年红包"、"扫码打折"等活动的推动下,二维码支付、声
<正>量化宽松治标不治本,全球经济危机还将持续三年左右。4年过去了,金融危机仍未结束,并且演变成了一场全球性经济危机。全球经济复苏乏力,如一团挥之不去的阴云,笼罩着各国
<正> 为了进一步转变企业质量意识,加强产品质量管理,加快产品结构调整步伐,提高企业素质,争创优质,名牌产品,推进外向型经济的发展,青岛市政府于1989年在全市开展了民用工业
本文针对履带式车辆行走装置动力学展开研究。介绍履带式车辆行走系统的设计要求及模型建立过程,利用仿真技术对其行走装置的动力学进行仿真分析,为进一步改进设计履带行走装
随着人们生活水平的提高和健康意识的增强,畜产食品安全性问题已经成为人们关注的焦点。从畜产食品和畜产食品安全的定义出发,论述了畜产食品重大安全事件,分析了引起畜产食
关系型融资作为一种以关系、长期合作与信任为基础的融资形式,以银行对借款人保持密切监督、银企重新谈判和双方隐含的长期合约为基本特征,其最直接、最根本的目的正是解决信
肺癌是绝大多数国家死亡率最高的恶性肿瘤,早期诊断是早期治疗的重要条件。以胸部X片、螺旋CT、支气管内镜、痰细胞学等检查手段作为肺癌筛检手段进行早期诊断已有许多报道,
介绍了目前双色球彩票的现状,以及统计方法预测的不足,分析了BP算法和遗传算法的特点及不足,提出了遗传BP算法。基于遗传BP算法,建立了双色球预测模型,并对近100期双色球的数