Web搜索引擎的搜索结果聚类研究

被引量 : 0次 | 上传用户:hbshwydd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的不断发展,Internet成为当今世界上最大的信息库。面对浩如烟海的信息,用户试图通过浏览Web来发现信息、检索信息已经越来越困难。搜索引擎是目前人们从Web上获取信息的主要工具,但是搜索引擎如Google、百度、雅虎等,返回的搜索结果缺乏清晰的结构,往往返回一个很长的、混杂相关信息和无关信息的搜索结果列表,用户不得不对列表中的结果逐个进行验证以得到所需信息,这给用户搜索到自己真正需要的信息制造了困难。因此,如何让用户更加准确而快捷地通过搜索引擎找到所需信息,成为一个非常重要而值得研究的课题。数据挖掘技术的出现,为解决此问题提供了新的思路。数据挖掘旨在抽取数据中隐含的、未知的、有用的、非一般的模式或知识。聚类作为数据挖掘的基本方法之一,通过比较数据的相似性和差异性,能发现数据的内在特征及分布规律,从而获得对数据更深刻的理解与认识。使用聚类技术对搜索结果进行处理,以更合理的方式将搜索结果返回给用户,使得用户能够方便地得到自己所需的信息。本文在对Web搜索引擎以及数据挖掘技术进行研究的基础上,针对该需求,提出一个在中文语言环境下、能够对搜索结果进行聚类处理的搜索结果聚类模型,并对其关键模块进行了实现。这一模型的主要思想是以Web搜索引擎返回的搜索结果作为输入数据,首先找到具有良好描述性、可读性的聚类标签,然后将相关的搜索结果分配到各个聚类标签下,经过后处理将搜索结果按照聚类类别的方式返回给用户,使用户能够更加便捷地找到所需的信息。在对该模型的设计中,我们在参考了两个经典的搜索结果聚类算法——SHOC和LINGO的基础上,充分考虑了中文语言相对于英文语言的特性、对原本针对英文的算法进行修改和调整,从而使得我们的模型能够在中文语言下得到更好的效果。
其他文献
<正>20世纪70年代,美国经济面临严重的"滞胀"难题,失业率长期突破警戒线。同时,金融体系"金融脱媒"加剧,大量资金流出银行,银行业结构性、流动性短缺。在此背景下,金融自由化
在终身教育理念的感召下,不同类型的职后非学历教育逐步展开。由于幼儿教师文凭较低,随着幼儿教师受关注程度的提高,幼儿教师职后培训逐渐成为研究幼儿教师专业成长的一项重
随着通信技术的快速发展,卫星通信在实现人类通信"无缝"对接方面发挥着不可替代的重要作用。本文首先分析了卫星通信产业技术的应用现状,详细论述了其未来的发展趋势,并结合
<正> 银行业的固定资产是指营业、非营业使用的房屋、机器、设备、交通工具等,他们是银行经营和业务发展的物质基础。 一.国有商业银行固定资产管理存在的问题: (一)固定资产
目的探讨深Ⅱ度烧伤创面伤后24 h内削痂的临床疗效。方法将30例有削痂手术指征并在伤后24 h内行削痂术的深Ⅱ度烧伤患者设为实验组,并另选30例削痂条件相似而且按常规在伤后4
当前,我国的"引进来"已进入一个较高的层次与发展阶段,但"走出去"仍然处于初级阶段。本文分析了我国企业"走出去"的方式、面临的主要问题,在此基础上提出了金融支持企业"走出
战略“是对意图、目的的十分广义的描述。而这些目的或意图表明了为达到具体目标所要采取的行动的种类。”企业筹资活动并不是单纯地筹资,它决定了企业的资本结构,关系着企业
阐述了企业内部财务控制的内涵和内部财务控制制度的设计原则,揭示出我国企业内部财务控制存在的问题,应当采取有效的对策加强企业内部财务控制。
【目的】了解中医院骨科腰椎间盘突出症住院患者的中医证候特征,为临床治疗提供参考依据。【方法】采用医院电子病历信息系统数据库转出功能,提取本院骨科腰椎间盘突出症住院