搜索引擎检索结果聚类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yurui4010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的飞速发展和膨胀使得人们依靠网络来寻找所需的信息变得越来越难,由此也促成了网络搜索引擎的出现和不断进步。仅仅十几年的时间,如今,搜索引擎已经成为寻找Web信息不可或缺的主要工具并逐渐融入人们的生活之中。然而,随着网络的发展壮大和用户需求的拓宽和深入,现有的搜索引擎的弊端也日益凸现,数量众多的检索结果已经违背了搜索引擎查找信息便利的原则和初衷,结果聚类正是针对这一问题而开展的研究和探索。   本文主要分为五个部分:第一部分首先对搜索引擎的发展历史和目前状况作简要的描述,提出存在的主要问题由此确定了引擎聚类的研究话题。列举目前国内外的主要聚类系统,让我们看到中文引擎的聚类研究还需要不断提高。   第二部分分析了目前国内外对引擎聚类的理论和实践进展,理论部分的探讨是我们研究的基石,而通过图例方式展示主要聚类系统的成果又为本文系统的构造提供形象的轮廓。综合这些研究成果,文章总结了引擎聚类的工作模式以及其主要内容,这一部分在后面的章节中会有详尽的阐述。   第三部分尽可能详细列举迄今为止出现过的聚类算法,将其归为五大类,剖析每个类和代表算法的主要优缺点,作为我们选择聚类算法的借鉴。对照引擎聚类在相关度、类目描述、重叠性、聚类速度等方面实际要求,提出了线性复杂度的聚类算法--后缀树和后缀数组。二者都是基于字符串后缀的角度解析Web文档,但构造和使用方式是有很大差别的。   第四部分在上述分析的基础上,设计实现了中文引擎聚类的测试版CECT,采用后缀树作为主要聚类工具,详细阐述系统每个模块的实现过程,包括Web信息源选取、文档过滤、中文分词和统计、聚类类目确定、聚类后处理以及日志保存等。   第五部分按照类目区分度、类目描述和聚类速度三个主要指标对系统进行评价,针对测试系统的不足和改善搜索引擎的设想给出了一些可行的改进意见,这也能为系统的不断改善提供若干参考。   最后,对引擎聚类及本文做简要的总结,勾画了搜索引擎的美好明天。  
其他文献
体育教师在教学过程中,教学方法的应用不仅要考虑到运动项目的特点,还要结合学生的心理特征和生理特征.中小学蹲踞式起跑在教学的过程中,应当结合其动作特征,注重中小学生的
数字资源网络存储系统建设目前存在着责、权、利不统一,没有建设标准,盲目建设和资金投入不理性等问题.究其原因是由于建设制度设计不足、决策者认知与决策不足、评估机制不
从论述宁波市数字图书馆机电塑料模具特色库建设项目的目标及其迫切性出发,结合分析特色库的服务领域及主要对象,确定资源的总体框架为技术导航、贸易视窗、教学资源、咨询与
随着Web数字资源和应用的迅速增长,门户(Portal)作为一种集中、整合、访问异构、分布式数字资源和应用的方法,在数字图书馆、企业、电子政府、教育、科研等众多领域得到了广泛
随着电子政务的发展,政府部门的网站建设已经达到一定规模。我国在政府网站的建设过程中始终坚持“以人为本”,并将网站的功能定位为“政务信息公开、在线办事和公众参与”三大
高中体育教育一直是国民备受瞩目的话题,体育教育不光是要锻炼学生的身体素质,更是培养高中生顽强意志品质的重要方式.体育教育是促进人体各项机能增强,促进新陈代谢的关键因
论述对高校新生进行入馆教育,可以有效地提高新生对图书馆的利用率.但是各个高校的生源各有特点,新生入馆教育工作的内容和方法也应各具特色、不一而足.针对现有高校新生入馆
谢拉曾说过:“图书馆如果不是立刻反映,也是最终反映着社会的变革。”纵观图书馆的发展史,图书馆的每一次进步无不反映着社会生产力水平的提高和文明的进步。当通讯技术、计算机
学位
图书馆需要内容管理系统来解决数字图书馆建设面临的一些技术、财务与管理问题.国内外图书馆内容管理系统主要包括Greenstone、DSpace、Fedora、TRS WCM、CDI CM、TPI WCCM.
通过网络调查,总结出美国大学图书馆提供游戏服务的几种方式,如游戏资源借用、举办游戏主题活动、开发信息素养游戏、将游戏应用于信息素养教学.分析游戏对于大学图书馆读者