WEB个性化信息采集与管理关键技术研究

来源 :郑州轻工业学院 | 被引量 : 0次 | 上传用户:qrl307821498
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据国家信息产业部对振兴软件业和推动社会服务信息化的具体要求,以及政府、企事业单位对WEB个性化信息采集与管理的需求,Web信息服务行业已成为目前最热门的行业之一。然而面对目前通用搜索引擎的诸多缺陷,使得人们不再满足于充当关键词的提供者,因此用户如何参与到WEB个性化信息采集与管理,并提供智能化、个性化、语义化的信息服务已成为人们的迫切需求。基于人们的迫切需求,本文针对WEB个性化信息采集与管理的相关技术进行研究,主要研究工作包括以下几个方面:  (1)分析信息源结构,提出一种基于网络爬虫、元搜索引擎、深网搜索三种搜索策略的WEB信息采集方法;然后分析网页结构,根据个性化定制内容,提出一种基于双重净化的网页主题内容提取方法,从而达到WEB信息个性化采集的目的。  (2)分析网页的HTML结构特点,提出一种根据用户偏好进行网页去重和净化算法。通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容设置兴趣库,利用经典逻辑推理推测出它们的相似度来判断网页的重复度。实验结果表明,该方法能够完成针对中文内容网页的去重,并得到相对较高的查全率和查准率。  (3)针对企事业单位关注的网络评论,提出一种基于语言学结构的情感倾向识别模型,即:固定情感词元模型。该方法利用基于固定情感词元的三种特定搭配模式来构造识别算法,通过基于增量的tf-idf 模型的相关用户反馈不断更新特征词元集合,通过与传统的情感识别方法相比较,可以得到较为明显地提高情感分类的效率和准确率。  (4)分析用户的搜索行为,提出一种用户搜索行为预测模型:ARIMA-SVM模型。该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列,通过特征选择和文档表示的方法抽取搜索行为特征并进行标记,然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录,从而预测下一期的用户搜索行为,最后采用基于RBF核的SVM分类器去除噪声提高预测精确度。实验测试表明,新方法能够纠正预测用户行为的方向,与ARIMA模型相比,具有更好的预测性能。  本文最后设计和实现了一个网络个性化采集与管理系统,并对文中所提出的算法与模型进行试验与分析,试验数据表明本系统在WEB个性化信息采集的查准率和召回率,以及WEB信息的个性化管理和分析方面都取得了较好的效果。  
其他文献
一方面,随着计算机技术的迅猛发展,以及传感器技术的飞速发展,人们对于信息获取能力也在不断进步,造成了业务量和数据量的爆炸式增长,这导致海量数据的大量涌现。另一方面,传
随着Web应用的日益丰富,高效可靠的测试成为提高Web应用可靠性的现实需要。由于Web应用具有动态性和不确定性等特性,传统的软件测试方法难以对Web应用进行有效测试。由于 Agent
在过去的几十年里,指纹识别或者认证一直是生物特征识别里的主要研究方向,我们有足够的理由相信在未来的很长一段时间里,指纹识别或认证也同样拥有主流市场。指纹具有的唯一
基于传统测试理论的计算机辅助测试以固定的测试时间与测试题目数而忽略了受试者的个体差异,导致很多无效试题与时间的浪费并挫败受试者的信心。而计算机自适应测试是基于项目
随着计算机技术迅速发展,虚拟现实所涉及的领域越来越宽,并在教育领域得到了广泛的应用,受到了用户的青睐,虚拟培训的需求也越发旺盛。由于相关条件的约束,没法让学生去工业
需求获取平台是哈尔滨工程大学北京实验室的零编码软件生产平台(简称零码平台)的重要组成部分,零码平台是一个面向领域的软件自动化生产工具。用户利用零码平台开发应用软件
随着信息技术的飞速发展,医疗行业正在向智慧医疗的方向逐步迈进。云存储作为支撑智慧医疗发展的重要技术,可以作为远程医院之间信息共享的平台,很好地解决了远程合作化诊断的问
随着通信技术和传感器技术的高速发展,在实时监控和联机分析等应用领域产生了大量流数据。数据流挖掘技术的研究已成为当前国际数据库研究领域的一个热点。数据流快速、持续
作为一种新的信息获取方式和处理模式,无线传感器网络(Wireless Sensor Networks,简称WSN)目前已成为通信领域备受关注的研究热点。WSN是一种新型的无基础设施的无线网络,能
随着三维模型的各种建模技术的出现,三维模型数量呈现几何级数增长。倘若能够更好地合理地对现有的三维模型进行复用,这将势必会节省大量的物力人力。这就将问题从“如何构建