论文部分内容阅读
Web已成为人们获取信息的一个重要途径,随着Web信息的日益增长,人们不得不花费大量的时间去搜索自己需要的信息。目前,搜索引擎已成为人们最普遍使用的信息检索的工具。然而,目前大多数的搜索引擎提供的服务还不能令用户完全满意,尤其是针对某个具体用户的个性化服务。如何准确地收集用户兴趣网页,是各种个性化服务技术或系统研发的重要基础,也是个性化服务的关键环节,并决定了系统提供个性化服务的质量。本文以一个完整的个性化搜索引擎服务的推荐系统实现为背景,完成了以下几个方面的研究工作:①从用户兴趣角度对各种浏览行为的重要性进行了细致分析。用户在浏览网页时的行为能从某种程度反映用户的浏览兴趣,将这些运用于个性化服务领域我们可以发现用户的浏览行为和用户对网页的兴趣度之间存在某种关系。本文对影响用户兴趣的浏览行为进行了分析,并针对现阶段用户行为分析中的不足之处,提出了在行为分析中考虑用户平均行为的方法。②提出了针对不同浏览行为的网页兴趣量化计算方法,并且设计了一种参数自适应的兴趣网页提取技术。提出了以自动提取为主,手工提取为辅的兴趣网页提取方法。采用参数自适应和非正常网页自动剔除技术,充分利用在提取过程获得的兴趣网页集与非兴趣网页集逐步修正提取参数,达到准确捕获用户兴趣网页的目的,为后面的WEB挖掘提供了可靠、高质量的数据。③进而,提出了利用用户搜索词判断边界兴趣网页的方法。针对常用的搜索引擎提出一种搜索词的捕获方法,并利用搜索词建立搜索词典,采用搜索词与用户浏览内容相结合的方法修正了兴趣计算公式,提高了自动提取方式中提取临界点附近兴趣网页的识别精度。④针对上面提出的几种方法,在参与开发的个性化搜索原型系统基础上进行了实验分析,验证了方法的有效性。初步实验表明兴趣网页提取的精确率和召回率都比较高,达到了预期目的,可以提高个性化搜索的服务质量。如今,个性化服务不管是在学术研究中还是在商业应用中都逐渐成为一个热点。本文研究提出的兴趣网页提取模型以及搜索引擎的扩展方法,可以应用于用户个性化信息服务领域、搜索引擎扩展、客户信息管理、电子商务、以及数据挖掘领域等不同领域。