基于用户模型的个性化网络文献检索系统的研究与设计

被引量 : 0次 | 上传用户:atmip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种个性化的网络文献信息检索系统的设计研究,通过收集用户的基本信息和兴趣信息,建立面向用户兴趣的新型个性化网络信息服务系统。用户的兴趣模型可以说是系统个性化实现的基础,搜索引擎、系统与搜索引擎的接口以及向量模型的匹配算法是系统个性化实现的根本,本文还就Web页面的识别、聚类技术分别作了研究介绍。文中除了根据一定方法和原则建了一个用户模型之外,还就目前比较先进、智能的Agent、机器学习建模技术作了相关研究,最后本文还介绍了系统另外一个比较重要的功能——信息检索主动推送服务的实现。系统个性化网络文献信息检索服务的实现主要可以由以下五步进行:第一步,用户在系统用户界面的搜索框中输入自己的关键词或者词组信息,然后向系统提交。第二步,把第一步获取到的关键词通过系统的搜索引擎接口送到专门的搜索引擎,由它们执行实际的搜索行为。同时通过抽取算法获得结果文档特征项。第三步,把获得的每一结果项的文档向量,通过向量模型算法和用户模型向量计算出相关度,并以相关度排序的方式,对文档向量进行保存。第四步,结果显示。在用户界面,把符合用户模型的结果,按照用户设定的最大值和相关度由高到底的顺序进行显示。第五步,根据用户的反馈行为,进一步优化用户模型,调整相关项的权值和权值因子。为了本文和系统目标的实现,论文以七章的内容来展开讨论研究:第一章是绪论部分,从网络信息作为我们现在获取信息的主要途径入<WP=77>手,讨论我们目前获取网络信息的主要方式,以及在获取网络信息时面临的问题,引出论文研究的背景。并就目前个性化网络信息检索服务产生的定义、背景以及现状做了介绍。 个性化网络信息检索服务,最直接的概念就是以“用户为中心“的服务模式。既根据用户提出的明确要求,用户的兴趣模型或通过用户个性、习惯的分析在网络上检索,向用户提供其可能需要的信息和服务,也是培养个性,引导需求的服务。其根本就是尊重用户,研究用户的行为和习惯,为用户选择更为重要的资源,提供特色网络信息检索的服务。第二章是对个性化网络文献检索技术的研究。首先,本章介绍了个性化技术中所涉及到的一些个性化的概念、思想和个性化在本文研究中的特征。个性化就是使事物具有个性,或者使其个性凸现;个性化的思想在本文中的含义就是以系统用户为中心,提炼其兴趣与偏好,以此为基础把从网络中检索出来的信息被动或主动地呈现到用户面前;个性化在系统中的基本特征是用户需求至上、用户描述文件(user profile)为基础、以现有搜索引擎为工具、基于相关度的方法、自学习与信息主动推送;个性化对社会服务业、信息化的发展具有深远意义。然后,本章还对网络文献的概念、特点、分类、检索以及目前检索面临的一些问题作了介绍,这是研究个性化网络文献检索必须要了解的前提知识。第三章是论文的重点,在这里主要研究了个性化检索基于的基本理论和方法。这都是系统最终实现的支柱。由于系统的个性化检索最终的数据源还是搜索引擎中的数据库,因此我们就要了解搜索引擎的一些基本知识,搜索引擎是一个网络信息查找工具,它一般是由搜集器、检索器、管理器三个部分组成,各部分为信息搜索完成不同的功能,它的技术基础主要包括HTTP协议、Robot技术、信息检索技术这三部分;既然系统最终的提问要提交到搜索引擎,那这里就有一个系统与搜索引擎的接口的问<WP=78>题,本章以Google搜索引擎为代表,根据Google搜索引擎的搜索和结果网页界面的Html语言特征,给出了系统与Google接口实现原理的伪代码;用户兴趣模型也是系统个性化实现的前提,本章基于用户的基本信息和兴趣建立了一个简单、易行、实用的用户模型,并介绍了用户模型的体系结构和实现结构;向量空间模型是个性化信息的过滤算法,通过计算出文档特征向量和用户模型向量的相关度,对搜索引擎的搜索结果重新过滤、排序,实现个性化信息服务;本章最后还就Web页面的识别、特征提取以及文档特征向量的表示,简单的聚类技术作了介绍。第四章也是论文的重点,主要介绍了系统的一些主要模块的设计,包括用户界面、信息检索、信息过滤与反馈、用户模型更新这四大模块。用户界面是用户与系统进行交互的基础,用户信息的输入和输出都在这里进行,它在系统应用中的作用主要体现在信息导引、结果显示与反馈这两方面;系统的信息检索其实就是屏蔽掉了的搜索引擎的检索,本章介绍了系统信息检索模块中用户模型、文档特征向量的数据结构的表示,以及系统信息检索的基本步骤和简单原理图;信息过滤与反馈是个性化真正实现的部分,信息过滤不但要过滤掉相关度低的结果还要过滤掉错误的结果项,并以恰当的方式把结果显示给用户;当然这样得到的结果并不一定满足所有用户的要求,在系统的用户兴趣模型更新模块,主要根据用户的反馈对用户模型重新调整,使用户模型切实反应出用户的个性化需求。第五章介绍了Agent和机器学习这两种技术的一般性知识,以及它们在用户建模方面的应用,并对目前一些建模方法作了简单研究。用户建模一般可以通过这些方法来进行:服务器端挖掘、用户
其他文献
传统的民事权利能力理论认为,自然人的民事权利能力始于出生,终于死亡。因此,未出生的胎儿不具有民事权利能力,不属于受法律保护的民事主体范围,这几乎已成为我国法学界的定论。然
使用创新型人力资本以受教育程度为计量标准,通过单位根检验、协整分析方法和VAR模型,分析四川创新型人力资本存量与经济增长的关系以及创新型人力资本水平与产出水平的关系
随著科学技术的进步和市场环境的演变,市场营销理论与实务已经从注重4P(产品、价格、促销、管道)发展到4C(顾客、成本、便捷、沟通)以至进一步关注4R(维持、关系、介绍、修补)
<正>在2014年底召开的中央经济工作会议上,习近平同志对我国经济发展进入新常态作了系统阐述。认识新常态、适应新常态、引领新常态,既是当前和今后一个时期我国经济发展的大
欧盟既是我国第一大贸易伙伴,也是与我国发生经贸摩擦最多的贸易对象。文章详细分析了中欧经贸摩擦的主要特点以及若干发展趋势,以期对中欧经贸摩擦的防范和化解有所助益。
文章以2006年新老划断后至2009年12月31日之间首次公开发行的(IPO)327家公司为研究对象,在我国大小非解禁和货币政策剧烈波动的背景下研究该区间内IPO抑价的影响因素。本研究
唐代的闺怨诗与日本的小仓百人一首中都留存着大量的女性诗人或男性诗人以女性的视角写出。对爱情的渴望、忠贞不渝,男性不忠的怨恨等作品。两者有相似的创作背景下,其表现手
老年人肺部耐药菌株感染日益增多,给临床抗生素的选用带来困难。笔者从中西医结合角度出发,针对老年人肺部耐药菌株感染“正虚、痰湿”的病机关键,采用扶正清化法,取得满意疗效。
<正>初中语文教学中,要充分重视和发挥单元教学"循序渐进、举一反三、知识迁移"等优势,适应新教材灵活性、开放性特点,扎扎实实进行语言文学的训练,切实提高学生听、说、读、
美国是世界上物流业最发达的国家之一。深入研究并借鉴美国物流的发展经验,对于较美国等发达国家起步晚、发展落后的中国物流业,如何在最短的时间内,采取有效措施跟上国际物流业