论文部分内容阅读
Internet极大地扩展了用户的信息获取范围,WWW更以其超强的链接能力将各种信息组织成为一个巨量的信息空间,世界各地的各类信息服务机构纷纷利用它开展信息交流与传递工作,人们可以通过网络快捷方便地获取各种信息。长期以来作为信息集散地的图书馆,面临着极大的挑战,因此,传统图书馆凭借自身的资源、组织、技术等优势,利用网络这一强势平台开展服务,向数字图书馆嬗变。然而近年来的数字图书馆建设,单纯重视数字资源的建设和组织,忽略作为信息使用主体的人的感受,使得用户查找信息困难,陷入“被信息淹没,却饥渴于知识”的困境。 事实上,与个人兴趣相关的信息领域,相对于广袤的全局信息空间而言,永远只能算是一个狭小的范围,在全局信息空间中信息实体对每个用户都是等距的,用户难于获取与己相关的信息。因此,发展个性化信息服务,按照特定用户的特定信息需求,为其提供特定的信息内容和服务成为目前的研究趋势之一。个性化服务以用户为中心,其关键在于分析用户的信息行为及需求特征,记录和推导用户的潜在兴趣偏好,并根据用户兴趣主动推送相关信息。基于这种背景,论文在分析已有个性化信息服务系统的基础上,引入用户建模技术、Web数据挖掘技术和协同过滤技术,针对中文文本自身的特点及由这些特点带来的信息处理的特殊性,构建了一个数字图书馆个性化中文文本信息服务系统,力图在用户的最小努力下,为其提供更多、更贴近其需求的信息。 论文首先论述了数字图书馆信息服务的研究背景及现有个性化信息服务系统的研究现状和存在的不足,提出了本系统的解决思路;在此基础上,对与系统研究相关的理论和方法进行研究和分析;接着,论文分析了本系统研究对象的特点,并基于这些特点提出了系统所应实现的目标和系统的概要设计。第三章是论文的重点,论文在前述分析的基础上构建了系统核心部分(个性化服务)的工作模型,并阐释了其中各模块的功能,之后分节详细说明了各模块的工作过程。 在文档特征表示中,为了深入内容层次揭示文档特征,本系统利用中文信息处理技术对文档进行分词处理,并借助主词典、同义词典和蕴涵词典解决汉语的语义问题,将每篇文档用主词典中的统一的、规范的词条表示威特征向量,将语义转换为可以进行数学运算的形式。 在用户建模中,系统从三方面获取用户信息需求特征,第一,用户主动地向系统提供需求信息;第二,系统检测用户检索行为,从用户检索词分析其需求;第三,系统通过分析Web访问日志,得到用户的兴趣所在及兴趣的变化状况,并进一步利用对用户访问文档内容的分析来追踪其兴趣变化,将用户兴趣同样表示为兴趣特征向量,聚类相似用户。与以往系统不同,系统无需用户直接反馈,而是通过其对文档的访问频度、驻留时间及操作行为等来隐式获取用户的评价信息;同时,系统也利用用户候选兴趣特征向量来记录和累计用户潜在的、非主要的兴趣的变化过程,精度更高。 在推荐引擎中,系统采用混合推荐方式,一方面利用用户的兴趣特征向量和文档的特征向量进行相似度比较,另一方面利用相似用户的信息测览情况为当前用户推荐潜在有用的信息,并针对用户和页面分别进行推荐。 在检索引擎中,系统利用用户模型扩展用户查询,将与用户兴趣相关信息提供给用户而屏蔽不相关信息,减轻了用户构造复杂检索表达式和选择信息的负担,也提高了检全率和检准率。 最后,论文做了一些相关实验,并对当前工作作出总结,提出了进一步的改进意见。