论文部分内容阅读
信息过滤是自然信息处理中的一个重要课题。近年来,过滤系统在各类应用领域中得到了广泛的应用,它们阻断无用或不良信息,为用户提供定制的信息服务,使得他们在有限的阅读时间内获得最优化的数据。 由于网络上的信息以文本为主,因此文本信息的过滤就成为应用的焦点。目前两种典型的解决方案分别是基于内容的过滤和协作式的过滤。其中,基于内容的过滤通过分析文本信息与用户需求模型间的匹配程度,将满足用户兴趣要求的文本集合检索出来。而协作式的信息过滤根据相同或相近兴趣的用户对相应信息做出的评价,向其它用户进行推荐,主要利用用户之间的相似性来过滤信息。这两种方法各具特点。基于内容的过滤原理简单,可以直接在检索技术的基础上加以改进,从而获得比较有效的查询算法,但是它难以区分资源内容的品质和风格,无法完全解决信息过载的问题。协作式的过滤系统则可以很好地利用资源内容的品质信息,并且能解决新兴趣的发现问题,但是受数据稀疏性问题影响严重,尤其是对新系统而言。 针对上述问题,我们尝试性的提出了一种基于混合策略的文本过滤模型,并对不同策略下各种技术的使用进行了深入的探讨与分析。本文的研究工作主要包括以下几个方面: 1.探讨了基于窗口大小的文本特征表示,对句子窗口、段落窗口以及块窗口下的特征加权方法和匹配方法进行了比较研究,其中块窗口的使用对提高过滤精度显示出一定优势。 2.在传统推荐策略的基础上,改进了基于用户的最近邻算法,提出了基于相似项目的评分预测和推荐方法,缓解了数据稀疏性导致的无效预测。 3.提出了一种基于混合策略的文本过滤模型,结合基于内容的过滤方式和协作式过滤方式,我们首先使用前者生成候选推荐集,在此基础上使用后者产生TopN推荐,有效的提高了推荐的可靠性。