基于网页聚类的搜索引擎结果排序

被引量 : 0次 | 上传用户:litongyi88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web资源的不断丰富,更多的用户试图通过搜索引擎查询信息。然而,用户在体验信息检索系统带来的方便之时,也体会到了信息获取的困难。一方面,目前的搜索引擎主要基于与查询内容的字形匹配返回大量检索结果,由于查询内容具有广泛的语义,因此在返回的结果列表中存在主题混杂现象,用户在检索过程中必须不断对结果进行筛选,耗费了大量时间。另一方面,用户得到的检索结果不具个性化。针对上述问题,本文提出了基于网页聚类的搜索引擎结果排序。首先,为了解决搜索引擎返回结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,本文将文本聚类应用到搜索结果处理中,提出基于主题短语的搜索引擎结果聚类方法。在对返回结果的特征提取中,提出一种新的特征提取方式,特征向量由查询关键词构成的主题短语和高频独立词组成。同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。其次,针对用户检索的个性化问题,本文提出了基于用户兴趣和网页聚类的搜索结果排序。通过挖掘用户兴趣,建立兴趣模型,根据用户的兴趣对聚类结果进行类别排序,同时基于用户兴趣模型对类别标签进行扩展,对用户感兴趣的类别内网页综合多个指标进行顺序微调。最后,根据算法思想进行了实验测试,并对实验数据进行了分析。实验结果表明,基于主题短语的搜索引擎结果聚类算法能有效提高聚类结果的查准率,聚类类别实现了对查询主题的细化。基于用户兴趣的排序提高了用户准确获取信息的效率。同时该系统也存在着很多不足之处,有待于进一步的改进。
其他文献
首先回顾了竞技武术套路的发展历程,将其分为确立难美化、向传统和技击回归、重新走上难美化的方向等几个阶段。其次提出:只有抓住了其最本质的技术特点——技击特点以及其最
在前人研究成果的基础上,综合地震、录井、测井和地球化学等资料,以构造演化为主线,对南盘江坳陷油气保存条件进行了系统的研究,探讨了该地区保存条件的主控因素,划分出了有利的保
城市空间布局优化能使城市功能效用最大化,带来良好的社会经济效应。而行政区划调整能有效地促进各种要素的合理流动和优化配置,促进城市空间布局优化,带动城市健康持续发展
当前高职院校课程建设领域中存在着诸多的问题,从依据职业岗位划分职业能力,围绕学生职业能力设置课程体系、按照行动导向实施教学、构建与人才培养目标和实践教学内容相配套
<正>2月14日是西方传统的情人节,又名圣瓦伦丁节。男女在这一天互送鲜花、巧克力、礼品、卡片,以表达爱意。和很多中国人用近乎狂热的激情过圣诞一样,情人节也已悄悄渗透到无
<正>近年来采用袋式除尘器控制微细烟尘倍受关注,综观国内外电厂锅炉袋式除尘器的应用情况,袋式除尘器出口烟尘排放浓度均低于50mg/mN3,甚至达到10mg/mN3以下。对于燃用低硫
华夷之有别,当始于有夏之世。四千多年来,随着民族的冲突和融合,“华”和“夷”的内涵和外延发生频繁变化。天朝正统的华夷观念支配着清王朝,成为清廷处理对外事务,即所谓“
本文采用文献资料法,总结回顾了建国以来我国户外运动的发展历程,并针对其发展过程中存在的问题提出相应对策,旨在对我国户外运动的发展提供一些有益参考。 This article re
细胞衰老是指细胞脱离细胞周期并不可逆地丧失增殖能力后进入的一种相对稳定的状态,是细胞生命活动的一种客观规律。细胞衰老与肝纤维化的发生与发展存在密切关系。肝星状细
"变化率"问题是普遍存在的问题,而描述这一问题的本质就是导数。进而建立微分方程模型。通过几个方面的应用,可看出数学模型方法的重要性、可行性,它是揭示问题本质,进而使问