论文部分内容阅读
面对因特网上日益增多的在线可读文本,文本过滤旨在帮助用户获取自己感兴趣的文本,实现信息服务的个性化,因此它具有广泛的应用背景和较高的实用价值。 文本过滤的形式可大致分为两种:内容过滤和协作过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户。协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已被成功地应用于个性化推荐系统中。但随着系统规模的扩大,它的效能会逐渐降低,暴露出矩阵稀疏性、扩展性和早期级别等问题。 本文首先对文本过滤的两种形式进行了描述,然后对协作过滤技术进行了较深入的探讨。针对协作过滤方法的某些缺点,提出了一种改进的过滤算法-基于信息项的协作过滤算法。该算法有效地解决了稀疏性和扩展性等问题。本文还提出了一种结合内容过滤和协作过滤的文本过滤方法,该方法充分利用两种过滤技术的优点,有效地解决了早期级别等问题,使过滤系统的性能得到了提高。最后,本文介绍了用户兴趣模型构造方法,即显式反馈学习和隐式反馈学习方法以及实验系统中用户兴趣模型的三种刷新依据(注册RG、查询QY、反馈FB)。 为了对我们提出的改进的协作过滤算法和结合过滤方法进行评价,我们研制了一个中文计算机科技文献自动过滤原型系统。实验结果表明,改进的协作过滤算法优于基于用户的协作过滤算法;结合两种过滤技术后的系统具有更好的性能。