论文部分内容阅读
本文提出了一种个性化的网络文献信息检索系统的设计研究,通过收集用户的基本信息和兴趣信息,建立面向用户兴趣的新型个性化网络信息服务系统。用户的兴趣模型可以说是系统个性化实现的基础,搜索引擎、系统与搜索引擎的接口以及向量模型的匹配算法是系统个性化实现的根本,本文还就Web页面的识别、聚类技术分别作了研究介绍。文中除了根据一定方法和原则建了一个用户模型之外,还就目前比较先进、智能的Agent、机器学习建模技术作了相关研究,最后本文还介绍了系统另外一个比较重要的功能——信息检索主动推送服务的实现。系统个性化网络文献信息检索服务的实现主要可以由以下五步进行:第一步,用户在系统用户界面的搜索框中输入自己的关键词或者词组信息,然后向系统提交。第二步,把第一步获取到的关键词通过系统的搜索引擎接口送到专门的搜索引擎,由它们执行实际的搜索行为。同时通过抽取算法获得结果文档特征项。第三步,把获得的每一结果项的文档向量,通过向量模型算法和用户模型向量计算出相关度,并以相关度排序的方式,对文档向量进行保存。第四步,结果显示。在用户界面,把符合用户模型的结果,按照用户设定的最大值和相关度由高到底的顺序进行显示。第五步,根据用户的反馈行为,进一步优化用户模型,调整相关项的权值和权值因子。为了本文和系统目标的实现,论文以七章的内容来展开讨论研究:第一章是绪论部分,从网络信息作为我们现在获取信息的主要途径入<WP=77>手,讨论我们目前获取网络信息的主要方式,以及在获取网络信息时面临的问题,引出论文研究的背景。并就目前个性化网络信息检索服务产生的定义、背景以及现状做了介绍。 个性化网络信息检索服务,最直接的概念就是以“用户为中心“的服务模式。既根据用户提出的明确要求,用户的兴趣模型或通过用户个性、习惯的分析在网络上检索,向用户提供其可能需要的信息和服务,也是培养个性,引导需求的服务。其根本就是尊重用户,研究用户的行为和习惯,为用户选择更为重要的资源,提供特色网络信息检索的服务。第二章是对个性化网络文献检索技术的研究。首先,本章介绍了个性化技术中所涉及到的一些个性化的概念、思想和个性化在本文研究中的特征。个性化就是使事物具有个性,或者使其个性凸现;个性化的思想在本文中的含义就是以系统用户为中心,提炼其兴趣与偏好,以此为基础把从网络中检索出来的信息被动或主动地呈现到用户面前;个性化在系统中的基本特征是用户需求至上、用户描述文件(user profile)为基础、以现有搜索引擎为工具、基于相关度的方法、自学习与信息主动推送;个性化对社会服务业、信息化的发展具有深远意义。然后,本章还对网络文献的概念、特点、分类、检索以及目前检索面临的一些问题作了介绍,这是研究个性化网络文献检索必须要了解的前提知识。第三章是论文的重点,在这里主要研究了个性化检索基于的基本理论和方法。这都是系统最终实现的支柱。由于系统的个性化检索最终的数据源还是搜索引擎中的数据库,因此我们就要了解搜索引擎的一些基本知识,搜索引擎是一个网络信息查找工具,它一般是由搜集器、检索器、管理器三个部分组成,各部分为信息搜索完成不同的功能,它的技术基础主要包括HTTP协议、Robot技术、信息检索技术这三部分;既然系统最终的提问要提交到搜索引擎,那这里就有一个系统与搜索引擎的接口的问<WP=78>题,本章以Google搜索引擎为代表,根据Google搜索引擎的搜索和结果网页界面的Html语言特征,给出了系统与Google接口实现原理的伪代码;用户兴趣模型也是系统个性化实现的前提,本章基于用户的基本信息和兴趣建立了一个简单、易行、实用的用户模型,并介绍了用户模型的体系结构和实现结构;向量空间模型是个性化信息的过滤算法,通过计算出文档特征向量和用户模型向量的相关度,对搜索引擎的搜索结果重新过滤、排序,实现个性化信息服务;本章最后还就Web页面的识别、特征提取以及文档特征向量的表示,简单的聚类技术作了介绍。第四章也是论文的重点,主要介绍了系统的一些主要模块的设计,包括用户界面、信息检索、信息过滤与反馈、用户模型更新这四大模块。用户界面是用户与系统进行交互的基础,用户信息的输入和输出都在这里进行,它在系统应用中的作用主要体现在信息导引、结果显示与反馈这两方面;系统的信息检索其实就是屏蔽掉了的搜索引擎的检索,本章介绍了系统信息检索模块中用户模型、文档特征向量的数据结构的表示,以及系统信息检索的基本步骤和简单原理图;信息过滤与反馈是个性化真正实现的部分,信息过滤不但要过滤掉相关度低的结果还要过滤掉错误的结果项,并以恰当的方式把结果显示给用户;当然这样得到的结果并不一定满足所有用户的要求,在系统的用户兴趣模型更新模块,主要根据用户的反馈对用户模型重新调整,使用户模型切实反应出用户的个性化需求。第五章介绍了Agent和机器学习这两种技术的一般性知识,以及它们在用户建模方面的应用,并对目前一些建模方法作了简单研究。用户建模一般可以通过这些方法来进行:服务器端挖掘、用户