基于内容和协作的科技文献过滤方法研究

来源 :山西大学 | 被引量 : 16次 | 上传用户:listsetmap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对因特网上日益增多的在线可读文本,文本过滤旨在帮助用户获取自己感兴趣的文本,实现信息服务的个性化,因此它具有广泛的应用背景和较高的实用价值。 文本过滤的形式可大致分为两种:内容过滤和协作过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户。协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已被成功地应用于个性化推荐系统中。但随着系统规模的扩大,它的效能会逐渐降低,暴露出矩阵稀疏性、扩展性和早期级别等问题。 本文首先对文本过滤的两种形式进行了描述,然后对协作过滤技术进行了较深入的探讨。针对协作过滤方法的某些缺点,提出了一种改进的过滤算法-基于信息项的协作过滤算法。该算法有效地解决了稀疏性和扩展性等问题。本文还提出了一种结合内容过滤和协作过滤的文本过滤方法,该方法充分利用两种过滤技术的优点,有效地解决了早期级别等问题,使过滤系统的性能得到了提高。最后,本文介绍了用户兴趣模型构造方法,即显式反馈学习和隐式反馈学习方法以及实验系统中用户兴趣模型的三种刷新依据(注册RG、查询QY、反馈FB)。 为了对我们提出的改进的协作过滤算法和结合过滤方法进行评价,我们研制了一个中文计算机科技文献自动过滤原型系统。实验结果表明,改进的协作过滤算法优于基于用户的协作过滤算法;结合两种过滤技术后的系统具有更好的性能。
其他文献
随着网络技术的飞速发展,人类的各种行为不可避免的将与Internet网络以及信息处理技术发生关系。在此潮流之下,传统的保密与认证方式,已难以应付日益复杂的电子交易和信息保
地理信息系统(Geographical Information System,简称GIS)以数字化的形式反映人类社会赖以生存的地球空间的现实和各种空间数据的变迁以及描述这些空间数据特征,支持空间数据及
面向对象的开发方法是当今的主流,但是同时不得不使用关系型数据库,将两者更好地结合起来将在很大程度上加快软件的开发。对象/关系数据库通过将面向对象程序设计中的对象映射
随着计算机网络的不断发展,全球信息化已成为人类发展的大趋势。但由于计算机网络具有连接形式多样性、终端分布不均匀性和网络的开放性、互连性等特征,致使网络易受黑客、骇客
分布式人工智能是人工智能的一个分支,已经成为当前的研究热点。而对分布式人工智能最为有效的求解方式是基于Agent技术的建模。Agent建模主要是设计合适的Agent结构,通过学习
学位
随着科技的发展,新一代的计算机,无论计算能力和计算速度都比旧的计算机优越。但人类对高性能计算的需求,也不断提高。除了增强处理器本身的计算能力外,并行处理是一种提高计算能
随着信息技术和互联网技术的快速发展,嵌入式系统已广泛应用于消费电子和通信领域;嵌入式浏览器已成为最主要的应用软件,甚至有可能是唯一的、直接支持的应用软件。作为基于
随着P2P技术应用日益增多,加强对该项技术的研究已成为当务之急。本课题基于目前理论架构相对比较完整的P2P平台技术JXTA,研究了如何在该平台下进行应用开发,并讨论了P2P技术普
随着语义万维网的迅猛发展,越来越多的数据以RDF的形式发布出来,如何对这种语义数据进行存储、管理、查询以及有价值信息的挖掘,已经成为一个热门的话题。传统的三元组库设计实