基于用户模型的中文个性化检索系统研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:mainonewf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的高速发展,人们脱离了信息闭塞的年代,进入一个信息高速传输的社会。这种高效的信息传输是由网络诞生而来。网络使世界变小,人们可以通过网络瞬时获取自己所需要的信息。过去人们获取信息的一个重要途径—图书馆,面临着被取代的危险,人们需要一个高效便捷的数字图书馆。而数字图书馆的发展,主要集中于数字信息的收集和整理,从使用者的角度并没有太多的改善,使用者在检索资源时需要耗费大量的时间。事实上,每个用户在某一时间段只对某一方面的信息感兴趣,所以一般情况下,用户很难检索到自己感兴趣的信息。所以,从使用者的角度出发,对资源检索的模式进行改善,对不同使用者的不同检索需求提供相应的服务,这样才能使数字图书馆能够获得更加良好的发展。个性化数字资源检索围绕使用者进行开发,使用者的需求目的和需求特征成为个性化检索的关键,主要分析使用者的搜索兴趣与爱好。在这种背景下,本论文在已存在的个性化信息检索系统的基础上,采用了用户建模技术、web数据挖掘技术和协同过滤技术,针对数字图书馆中文文本信息资源的特点和复杂性,组建了一个数字图书馆个性化中文文本信息检索系统,使用户在进行检索时能够用最少的操作就可以获得最符合自己需求的相关信息。本文共分五个部分。第一部分主要介绍数字图书馆个性化信息检索的研究现状和存在的不足,提出了该问题的相应的解决方案。同时,对与该检索系统开发所需要的一系列背景知识进行了研究和分析。第二部分分析了个性化检索系统的特点,围绕这些特点提出了该检索系统能够完成的目标。第三部分和第四部分是本文的重点。第三部分依据前一部分的分析,建立了系统的核心工作模型,逐一解释了相应功能模块的工作原理。在文档特征表示中,系统利用中文文本信息处理技术对文档进行分词处理,将每篇文档用词条表示成特征向量,用数学计算的模式来表示语意转换。该系统从三方面入手,完成用户建模对用户需求信息的获取:首先,由用户自主为检索提供所需要的检索信息;其次,由检索系统来完成对用户的需求行为分析,从用户提供的关键词中提炼其检索需求;最后,检索系统通过跟踪用户的查询检索过程,分析得出用户的检索习惯和习惯的改变情况。第四部分是检索系统的实现部分,检索系统通过用户模型扩展用户的查询,依据用户习惯向用户提供与用户平时需求相关的信息,屏蔽与用户查询无关的信息,从而提高查询的效率。这样兴趣爱好不同的用户,输入相同检索词,就能得到不同的检索结果。第五部分对当前工作做出总结,提出了进一步的改进意见。
其他文献
目的:观察肺癌患者临床情况与放射性肺炎的(RP)关系。方法:总结419例需行放射治疗的Ⅱ~Ⅲb期肺癌患者的治疗情况,分析年龄、性别、病检、临床分期、肿瘤位置、化疗、手术、肺
以数控冲床加工为背景,针对数控系统加工路径优化问题,首先介绍了优化加工路径的基本原理,后分别介绍了最近邻算法和K元交换试探算法的应用。采用优化方法后,可以大幅提高数
财务困境预警研究,应跳出"唯财务观"的怪圈,将宏观经济因素、行业环境因素等同时纳入财务困境研究可行且必要。文章从事物发展内外因辩证关系的角度重新构建了企业财务困境的
合作学习是一种富有创意和实效的教学理论与策略。它显著地提高了学生的学业成绩,并在不同程度上促进了学生形成良好合作意识与沟通意识,很快引起了世界各国的关注,被人们誉
离岸银行业务在近15年的发展过程中,暴露出不少制度上和经营上的问题,限制了离岸银行业务的进一步发展。为使离岸银行业务能得到更好的发展,我们需要总结、思索。本文结合笔者对
从文化哲学的角度讲,中国传统文化对人的深层文化心理认同、欲望和需求、人格形成等起到了巨大的促进和制约作用,以变化发展的方式在当代中国的文化现实物境世界中取得生存权
目的:探讨由母婴ABO血型不合引起的新生儿溶血病(HDN)的血型分布及其溶血三项检测试验的重要性。方法:对226例临床新生儿溶血病进行ABO新生儿溶血(HDN)血清学检测,包括直接抗
人才培养、科学研究、服务社会是当代高等学校的三大基本职能。作为三大技术创新的主体之一,高等学校在科研和人才方面有着得天独厚的优势。随着经济的全球化,世界经济日新月
<正> 半夏泻心汤证原文见《伤寒论》154条(《伤寒论讲义》1964年版)"伤寒五六日,呕而发热者,柴胡汤证具,而以它药下之,柴胡证仍在者,复与柴胡汤。此虽已下之,不为逆,必蒸蒸而
随着大客车市场竞争不断加剧,采用更先进的涂装工艺和有效的防腐工艺增强客车表面的美观性和提高客车的使用寿命,成为大型客车生产企业争夺客户和市场份额的重要武器。电泳涂