论文部分内容阅读
随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。这些信息大多数是以网页文本的形式存放的,它们种类繁杂,缺乏组织,现有的以搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。如何将搜集的信息资源合理组织,如何从大量的信息中,针对用户不同的兴趣需求,返回用户真正需要的信息,从而实现个性化搜索,成为目前研究的重要课题。所谓个性化搜索指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的搜索。为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法进行了探讨,主要进行了以下三个方面的研究工作:①基于用户兴趣的网页正文的提取。目前网页的形式多种多样,包含了大量与网页主题无关的内容,如广告、图片、无关链接等,这些与网页主题无关的内容会严重影响搜索引擎等Web服务的效果。本文通过对网页HTML的语法分析,在基于HTML元素的网页正文提取算法基础上,基于启发式规则对网页正文提取方法进行了改进,得到了基于超链接到无网页正文提取算法,测试结果表明这种方法能有效地得到大部分HTML网页的正文部分。②基于兴趣词典的网页分词技术。传统的机械分词的词典数据量庞大,分词系统的负荷很大。针对网络用户的兴趣不同,本文利用兴趣词典这一新概念,通过对不同用户浏览过的网页集进行分词处理,分别为每个用户建立不同的兴趣词典。该词典存放于客户端,从而将网页关键词提取的工作由服务器端转移到客户端,节省了系统开支,并且通过实验表明基于用户兴趣词典的网页关键词提取在保持分词精度的同时可以增强系统的实时性,降低了网页描述的维度。③本文以矢量空间模型为Web文本的表示方法,在网页标签分析的基础上,在网页描述时结合了网页正文中“多词长句”特征,对常用的词语权重计算公式TF-IDF公式进行了改进,并将改进后的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了系统的聚类精度。本文介绍的网页特征描述技术通过个性化搜索引擎实验系统(My Personal SearchEngine,下文简称MyPSE)测试,测试结果证明,利用本文介绍的方法得到的网页特征向量可以较为准确的描述网页特征,为MyPSE系统中用户兴趣建模和个性化搜索提供了良好的支持。