Web搜索引擎的搜索结果聚类研究

被引量 : 0次 | 上传用户：hbshwydd

【摘要】

：

随着计算机技术和网络技术的不断发展,Internet成为当今世界上最大的信息库。面对浩如烟海的信息,用户试图通过浏览Web来发现信息、检索信息已经越来越困难。搜索引擎是目前

【作者】

：

刘华斌

【发表日期】

：

2008年期

【关键词】

：

聚类算法 Web搜索引擎搜索结果后缀数组潜在语义标引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术和网络技术的不断发展,Internet成为当今世界上最大的信息库。面对浩如烟海的信息,用户试图通过浏览Web来发现信息、检索信息已经越来越困难。搜索引擎是目前人们从Web上获取信息的主要工具,但是搜索引擎如Google、百度、雅虎等,返回的搜索结果缺乏清晰的结构,往往返回一个很长的、混杂相关信息和无关信息的搜索结果列表,用户不得不对列表中的结果逐个进行验证以得到所需信息,这给用户搜索到自己真正需要的信息制造了困难。因此,如何让用户更加准确而快捷地通过搜索引擎找到所需信息,成为一个非常重要而值得研究的课题。数据挖掘技术的出现,为解决此问题提供了新的思路。数据挖掘旨在抽取数据中隐含的、未知的、有用的、非一般的模式或知识。聚类作为数据挖掘的基本方法之一,通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。使用聚类技术对搜索结果进行处理,以更合理的方式将搜索结果返回给用户,使得用户能够方便地得到自己所需的信息。本文在对Web搜索引擎以及数据挖掘技术进行研究的基础上,针对该需求,提出一个在中文语言环境下、能够对搜索结果进行聚类处理的搜索结果聚类模型,并对其关键模块进行了实现。这一模型的主要思想是以Web搜索引擎返回的搜索结果作为输入数据,首先找到具有良好描述性、可读性的聚类标签,然后将相关的搜索结果分配到各个聚类标签下,经过后处理将搜索结果按照聚类类别的方式返回给用户,使用户能够更加便捷地找到所需的信息。在对该模型的设计中,我们在参考了两个经典的搜索结果聚类算法——SHOC和LINGO的基础上,充分考虑了中文语言相对于英文语言的特性、对原本针对英文的算法进行修改和调整,从而使得我们的模型能够在中文语言下得到更好的效果。

其他文献

利率市场化背景下富国银行转型案例

<正>20世纪70年代,美国经济面临严重的"滞胀"难题,失业率长期突破警戒线。同时,金融体系"金融脱媒"加剧,大量资金流出银行,银行业结构性、流动性短缺。在此背景下,金融自由化

期刊

富国银行利率市场化改革市场化背景

试论当下中国城市幼儿教师职后教育存在问题与对策

在终身教育理念的感召下,不同类型的职后非学历教育逐步展开。由于幼儿教师文凭较低,随着幼儿教师受关注程度的提高,幼儿教师职后培训逐渐成为研究幼儿教师专业成长的一项重

期刊

城市幼儿教师职后教育现状调查

卫星通信产业技术应用现状分析及其发展趋势

随着通信技术的快速发展,卫星通信在实现人类通信"无缝"对接方面发挥着不可替代的重要作用。本文首先分析了卫星通信产业技术的应用现状,详细论述了其未来的发展趋势,并结合

期刊

卫星通信产业应用现状发展趋势

国有商业银行固定资产管理中存在的问题及建议

<正> 银行业的固定资产是指营业、非营业使用的房屋、机器、设备、交通工具等,他们是银行经营和业务发展的物质基础。一.国有商业银行固定资产管理存在的问题: (一)固定资产

期刊

国有商业银行固定资产管理问题及建议

二乙酰己二胺治疗骨髓增生异常综合征患者的Ⅰ期临床研究

期刊

骨髓增生异常综合征耐受性试验

早期削痂对深Ⅱ度烧伤创面愈合的临床研究

目的探讨深Ⅱ度烧伤创面伤后24 h内削痂的临床疗效。方法将30例有削痂手术指征并在伤后24 h内行削痂术的深Ⅱ度烧伤患者设为实验组,并另选30例削痂条件相似而且按常规在伤后4

期刊

深Ⅱ度烧伤削痂术创面愈合

我国企业走出去的特点、问题和金融支持对策

当前,我国的"引进来"已进入一个较高的层次与发展阶段,但"走出去"仍然处于初级阶段。本文分析了我国企业"走出去"的方式、面临的主要问题,在此基础上提出了金融支持企业"走出

期刊

境外投资金融支持“走出去”战略

试论企业筹资战略

战略“是对意图、目的的十分广义的描述。而这些目的或意图表明了为达到具体目标所要采取的行动的种类。”企业筹资活动并不是单纯地筹资,它决定了企业的资本结构,关系着企业

期刊

筹资战略资本市场资本结构公司治理结构

企业内部财务控制存在问题及对策探讨

阐述了企业内部财务控制的内涵和内部财务控制制度的设计原则,揭示出我国企业内部财务控制存在的问题,应当采取有效的对策加强企业内部财务控制。

期刊

企业内部财务控制存在问题对策

2724例腰椎间盘突出症住院患者的中医证候特征分析

【目的】了解中医院骨科腰椎间盘突出症住院患者的中医证候特征,为临床治疗提供参考依据。【方法】采用医院电子病历信息系统数据库转出功能,提取本院骨科腰椎间盘突出症住院

期刊

腰椎间盘突出症/中医病机中老年人中医诊断

Web搜索引擎的搜索结果聚类研究

与本文相关的学术论文