论文部分内容阅读
根据国家信息产业部对振兴软件业和推动社会服务信息化的具体要求,以及政府、企事业单位对WEB个性化信息采集与管理的需求,Web信息服务行业已成为目前最热门的行业之一。然而面对目前通用搜索引擎的诸多缺陷,使得人们不再满足于充当关键词的提供者,因此用户如何参与到WEB个性化信息采集与管理,并提供智能化、个性化、语义化的信息服务已成为人们的迫切需求。基于人们的迫切需求,本文针对WEB个性化信息采集与管理的相关技术进行研究,主要研究工作包括以下几个方面: (1)分析信息源结构,提出一种基于网络爬虫、元搜索引擎、深网搜索三种搜索策略的WEB信息采集方法;然后分析网页结构,根据个性化定制内容,提出一种基于双重净化的网页主题内容提取方法,从而达到WEB信息个性化采集的目的。 (2)分析网页的HTML结构特点,提出一种根据用户偏好进行网页去重和净化算法。通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容设置兴趣库,利用经典逻辑推理推测出它们的相似度来判断网页的重复度。实验结果表明,该方法能够完成针对中文内容网页的去重,并得到相对较高的查全率和查准率。 (3)针对企事业单位关注的网络评论,提出一种基于语言学结构的情感倾向识别模型,即:固定情感词元模型。该方法利用基于固定情感词元的三种特定搭配模式来构造识别算法,通过基于增量的tf-idf 模型的相关用户反馈不断更新特征词元集合,通过与传统的情感识别方法相比较,可以得到较为明显地提高情感分类的效率和准确率。 (4)分析用户的搜索行为,提出一种用户搜索行为预测模型:ARIMA-SVM模型。该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列,通过特征选择和文档表示的方法抽取搜索行为特征并进行标记,然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录,从而预测下一期的用户搜索行为,最后采用基于RBF核的SVM分类器去除噪声提高预测精确度。实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。 本文最后设计和实现了一个网络个性化采集与管理系统,并对文中所提出的算法与模型进行试验与分析,试验数据表明本系统在WEB个性化信息采集的查准率和召回率,以及WEB信息的个性化管理和分析方面都取得了较好的效果。