论文部分内容阅读
随着Internet的飞速发展,网络上的信息呈指数增长,其内容之丰富,种类之繁多堪称世界上最大的图书馆,如何有效地查询到符合用户兴趣的内容,关系到我们能否充分利用这个巨大的信息资源的问题,也是本文的研究目标。在此我们采用了多种机器学习方法和Agent技术,旨在开发一种具有智能性、主动性、高效的信息过滤Agent。本文主要研究内容为以下两个部分:信息过滤系统和兴趣学习系统。 信息过滤系统分成两个部分:中文分词部分和信息过滤部分。 中文分词部分采用了利用汉字的特点对文档进行预处理的方法和基于词库的最大匹配法和无词库的频度统计法相结合的方法。 信息过滤部分采用了基于关键词向量的信息过滤方法。并作了一些改进:其中文档方面针对Web文档的特点对文档不同标签处的关键字赋予不同的权值。用户方面用户可以直接修改模板关键字串中不同关键字的权值,得到更加精确的用户兴趣,使过滤的结果能准确的反映用户的兴趣,从而提高文档过滤的准确性。 兴趣学习系统中,我们采用了基于向量空间法的用户兴趣学习方法和基于ID3算法的用户兴趣学习法两种方法。并采用了基于用户反馈的学习方法、后台观察用户行为学习用户兴趣的方法和用户兴趣主动服务功能。 本文采用了以下几种机器学习技术:基于用户反馈的机器学习技术、基于观察记忆的机器学习方法、基于ID3算法的归纳推理、启发式学习方法、知识库技术,系统具有较好的自主性和代理性。