基于Internet的信息检索若干问题的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:victim1031
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Internet上的信息具有数量庞大、无序性强、重复性大的特点,互联网上的各种信息检索系统——搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。当前主要有两个关键问题需要解决:一是效率问题,现在互联网上的信息检索系统需要处理几千万上亿的网页,同时要和成千上万的客户端用户交互;二是准确性问题,信息太多,如何向用户准确提供他们所需要的内容就特别重要。因此,如何提高搜索引擎的使用效率和如何更快更准确的向用户提供检索信息成为本文关注的唯一内容。 本文致力于从Internet上信息检索系统的系统结构、文档特征表示、用户个性化模式的表示等三个角度来分析,主要包括以下工作: 1.对现有的信息检索系统进行分析 分析了当前Internet上信息检索系统的发展过程和发展趋势,并分析了信息检索系统所涉及的关键技术及相关知识。在此基础上,分析了当前信息检索系统存在的一些不足之处,如随着Internet规模和用户的飞速发展,客户机/服务器结构引起的低效问题:以及常用的向量空间模型在表示文档特征时带来的准确率差等问题。 2.提出基于CORBA技术的分布式体系结构 针对当前搜索引擎系统客户机/服务器两层模式的传统结构设计带来的效率低下问题,提出在搜索引擎系统中引入分布式对象技术来更好的适应新的网络状况。CORBA是当今比较成熟的分布式技术,因此本文为搜索引擎设计了一种基于CORBA技术的体系结构,对其主要功能和特点进行了分析。引入CORBA技术后,搜索引擎传统的客户机/服务器结构成为具有三层结构的分布式体系。这种分布式体系结构为适应搜索引擎向智能化、个性化发展的特点,强调应用程序服务器端实行分布式计算,因而具有良好的开放性、扩展性、集成性和较高的计算速度,对减少服务器的负载,减少网络延迟,提高速度和效率的也有一定的作用。另外,这种基于CORBA技术的分布式体系结构可以和搜索引擎传统的分布式结构进行整合,从而形成一种既在应用程序服务器端支持分布式计算又在数据服务器端支持分布式下载和查询的分布式体系结构。 3.提出一种基于BP神经网络统计文档特征项权重的方法 信息检索系统的核心技术主要包括三个方面的内容:文档与用户查询的表示:查询匹配策略;匹配结果的相关度计算。其中文档表示是信息检索技术的基础,而文档表示包括文档特征项的抽取和文档的特征项权重的统计。本文针对现存的文档特征项 基于Internet的信目、检索若干问题的研究权重统计方法的不足,结合向量空间模型表示文档特征的方法,提出利用神经网络技术对文档的文档特征权重进行估计的方法。BP神经网络是当今应用最为广泛的一种人工神经网络,它的结构简单,工作状态稳定,可用于函数逼近,模式识别等方面。本文设汁并训练出一个适合的BP网络,给出一个文档的特征项出现频率能计算出特征项在该文档中的权重,从而表示出文档特征。从实验结果来看,这种表示方法简单实用,准确率较高。4.提出一种基于Hudria-n树形式的个性化模式表示方法及相应的文档过滤算法 如何更快、更准确的向用户提供其所感兴趣信息是当前搜索引擎系统发展的方向之一。解决这个问题的基础在于如何准确的获得用户的兴趣并把它表示出来。本文分析了表示用户个性化模式常用的几种表示方式,并提出了一种基于Huffman树形式的个性化模式表示方法。在这种个性化模式表示的基础上,给出了文档过滤算法,并对这个算法性能进行了分析。这种用户个性化模式的表示方式的最大优点能提高Web文档过滤的效率,减少用户等待时间。 本论文受山东省中青年科学家奖励基金项目(项目号:304065)和山东省科委项目(项目号:012090101)资助。
其他文献
文章针对《全国普通高等学校美术学(教师教育)本科专业课程设置指导方案(试行)》(以下简称《方案》),对高师美术教育专业课程结构的重新建构加以探讨,认为课程设置应有两个着
期刊
本文的研究采用定性与定量相结合的方法,综合运用了管理学、经济学、运筹学和数理统计的相关理论,研究的主要内容如下:首先,对长鞭效应从外在特征到负面影响作了逐层深入的定性分
统计信息是了解国情国力、指导国民经济和社会发展的信息主体,是国民经济核算的中心,是科学决策和宏观管理的重要基础.中国的统计事业近年来得到了长足的发展,统计改革有了突
期刊
期刊
期刊
小麦的产量和品质,常因环境的不同而异,或高产稳产,或高产而不稳产,或稳产而不高产,也有的既不高产也不稳产。为了对小麦品种的丰产性、适应性和适应范围进 Yield and qual
翻开各种报刊,常常看到“更正”、“重要更正”一类的启事,简直形成一股“更正风”了。为什么要“更正”?无非是因为以前播发或刊登的新闻、文章有错误,需要改正。有错误的
期刊