在线文档推荐算法的研究与改进

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:cjwmyzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国网民规模接近7亿,互网联页面数突破2000亿,信息爆炸般增长,从中获取有效信息也变得愈加困难。因此也有了许多个性化解决方案来对互联网信息进行筛选提供给人们符合所需的信息。搜索引擎和推荐系统便是两种获取信息的有效手段,前者是用户主动查询搜索所需内容,但常受限于查询格式或者内容完整性,并不容易找到所需内容,尤其是难以查询视频音频等,且智能程度较低。而另一种方式,推荐系统便可以发挥优势,通过分析海量数据信息,分析历史行为信息和用户之间的关系等,对用户进行推荐,免去用户搜索的麻烦。数据是推荐系统的基础。从数据中进行分析才能得到有价值的信息,寻找到其中隐藏的关系。但数据需要保证质量,由此引出数据的清洗环节。数据清洗指将原有数据如日志文件等按规则进行预处理,使数据达到完整性一致性准确性等要求。数据清洗保障了推荐算法的准确性。推荐算法是推荐系统的核心。传统推荐算法在推荐系统中依旧发挥着砥柱的作用,但是对于特定数据特定系统,其效果并不总是理想。针对特定数据进行分析,在原算法基础上进行创新,通过实验数据分析,优化改进,往往能获得更好的效果。综上所述,本文针对华为在线文档推荐系统的工作主要如下:1.首先采集数据,并对数据进行分析。然后制定数据清洗规则,按照清洗流程兑出去进行了预处理。每天新数据到来时定时启动清洗程序,实现清洗自动化。2.分析已有的推荐算法并做出改进。本文采用了协同过滤算法并在此基础上改进算法,针对实验结果进行分析,用转移概率矩阵对原相似度矩阵进行替代,并分析历史浏览信息中的文档类别间的跳转关系,在推荐过程中根据文档类别间跳转比例产生推荐列表。最后结合热点推荐,弥补冷启动的缺点。改进后的算法的各项评价指标提升明显。3.将数据处理和推荐系统进行整合,实现华为在线文档推荐系统,并以网站形式进行展示。网站采用Struts2+Mysql+redis形式,框架为Struts2,其优点为层次清晰,维护效率高。数据库采用了关系型数据库Mysql和内存数据库redis,充分利用前者简洁高效的特点和后者快速查询的优势。
其他文献
在网络普及的今天,网络安全问题日益严重。入侵检测系统已经成为防火墙之后的第二道安全防线,在一定程度上维护了网络安全,但是在入侵检测系统中存在严重的误报和漏报现象,无
随着互联网络的高速发展和广泛应用,web服务作为一种新兴的web应用模式也得到了长足的发展,其数量与日俱增,如何提高服务的查准率与查全率,最大限度的满足用户的需要成为迫切
学位
安全协议是在开放网络中借助密码体制达到密钥分配、身份认证、信息保密等特定目标的通信规范,其正确性对网络应用的安全至关重要。安全协议的手工分析十分困难,容易出错,因此,使
自IB方法提出以来,IB理论及其算法在各领域的应用不断地加深,随之也暴露出一些问题,其中之一是:IB理论所定义的相关变量必须与源变量以共现数据的形式出现,即IB算法需要事先得
频繁Web访问模式发现是Web使用挖掘的关键内容,能够从海量Web数据中发现有用的用户访问信息,从而帮助企业改善站点和服务器设计,提升用户服务质量。语义Web为当前Web上的内容
随着互联网的发展,网络中的用户和商品都越来越多。传统的推荐算法由于混入了过多干扰和无用信息,在为每个用户进行推荐时得到的准确率并不高。而流行性预测是一种利用商品在
近年来,信息安全日益引起人们的重视,网络攻防能力已成为信息化时代人们关注的焦点。然而,传统的防火墙、入侵检测等防护手段在现代网络对抗中使防守方显得十分被动。跳频技
学位
全过程计算机辅助动画自动生成技术是由中科院数学所的陆汝钤院士提出的,结合了人工智能理论与现代多媒体技术的全新动画制作过程。它形成了一套自顶向下、逐步求精的方法,以
学位
随着移动计算设备和无线传感器的大量出现,网络将成为人与周围物理世界交互信息的接口。Internet和移动通信技术的发展,移动IPv6为连接到Internet的主机用户提供了移动性支持
随着信息技术的发展,越来越多的图像数据需要被秘密传输,图像秘密共享改变传统单一加解密模式,将秘密共享技术应用于处理图像数据,能够分担责任,提高系统安全性和健壮性,在银