基于Web挖掘的信息提取与推荐相关研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:cookid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展,为人们提供了各种信息资源,然而,如此庞大的信息量为人们寻找自己真正感兴趣的信息带来了困难。因此,要为用户提供更好的服务,关键是发现用户的潜在访问兴趣。解决这一问题的方法就是将传统的数据挖掘技术应用于Web上.用户如何得到想要的信息并能指导用户的决策行为,成为一个很重要、迫切的问题。对因特网上的网页数据模型进行研究,全面、准确、高效的提取和推荐用户所需的信息,对此就显得十分必要。信息提取和推荐技术(特别是个性化的技术)就是在这样的背景下产生的,它是在internet出现,特别是在电子商务蓬勃发展起来之后产生的web页面挖掘的一个新的分支。本文首先介绍了论文的研究背景,意义以及针对此研究领域的国内外的研究现状和论文的结构等等。其次是站点web信息提取和站点个性化信息推荐系统研究。信息提取技术主要介绍Web信息提取的功能分类,标准,相关技术以及分块信息提取的相关技术与算法研究,推荐技术主要介绍信息推荐系统的简介,分类,输入输出及表现形式,信息推荐的关键技术(包括思想,分类,步骤及算法等)。本文重点分析了站点分块信息提取以及网站信息推荐算法特别是电子商务网站的协同过滤推荐算法进行了研究。针对信息提取与推荐中的一些问题提出了自己的解决方法,在一定程度上有效解决了提取与推荐中的效率与准确性问题,通过实验证明了算法具有一定的合理性和有效性。以整个的Web页面作为最小的信息提取单元的方式已逐渐不能适应Web页面信息提取的快速发展,我们把页面按照一定的算法划分为若干个区域(Block),把这些区域作为基本的信息处理和提取单元,并将这些区域赋予一定权值,进行准确高效的信息提取。在对网站的用户使用日志进行隐性信息提取的基础上,本文提出了利用用户聚类的方法,将具有相似兴趣的用户划分到同一个聚类中,这个工作可以离线进行,用此方法可大大节省算法在线处理数据的时间,提高对网站(特别是电子商务网站)协同过滤信息推荐的效率,有效解决了数据稀疏性,系统可扩展性和冷启动等问题。但本文仍有许多不足之处有待改进:1、信息提取与推荐的实时性与信息质量之间的平衡:页面挖掘的精度和实时性是一对矛盾。在提高速度同时,如何有效提高信息的质量,需要做进一步的研究。2、信息的隐私保护与信息安全问题。如何在对用户的决策行为提供信息服务的同时有效保护用户的隐私值得做进一步的研究。
其他文献
本文的研究背景是某飞机显控系统对嵌入式数据库的应用需求预研项目。为提高事务管理器事务调度的成功率及软件的构架性能,对事务管理器的混合事务调度、并发控制及软件构架
虚拟漫游技术是虚拟现实技术的重要分支,在建筑、医学、航天等领域应用广泛。本文以地产开发项目为背景,提出了一个桌面级漫游应用的设计思路和解决方案,重点对虚拟场景建模和漫
学位
脉冲现象是自然科学乃至社会科学领域中一种普遍而重要的现象,并通常用脉冲微分方程进行刻画。对实际问题,我们还希望用相对快速的外加手段或脉冲扰动来修正系统以达到预期目的
网络计费系统对于运营商与用户来说都是一个极其重要的系统,不仅可以统计网络用户的费用,而且可以监控网络数据流量,优化网络资源分配。先进的计费系统是提供优质网络服务的
随着大数据时代的到来,数据规模和种类急剧增大,如何在海量数据中找出对用户有用的信息至关重要。Skyline查询作为经典的查询算法,能够有效返回原始数据集上的一组较优子集,将Sky
膜生物反应器(简称MBR)作为膜分离技术与生物处理单元相结合的一种新型水处理技术,近几年,它己成为国际研究的热点技术之一,并逐渐被应用于各种工业、生活废水的处理。   本论
无线局域网的应用越来越普遍,但安全问题一直是广大用户和研究者非常关注的问题。IEEE802.lli标准采用了基于可扩展认证协议(EAP, Extensible Authentication Protocol)的IEE
神经元放电活动的研究是神经科学,心理学和人工智能研究中的一个重要领域,其核心是是否可以捕获特定刺激下神经元放电活动的规律性,即研究大脑结构与功能的关系。近20年来,以
本课题针对专利预警机制的专利信息采集、专利信息分析和专利预警三个阶段进行深入研究,充分运用网络爬虫技术、HTTP协议、DOM元素设计并实现了专利数据收集系统,借助Lucene
协同学理论研究的要点是复杂系统宏观特性的质变。20世纪80年代末,Haken教授利用自发模式形成和模式识别之间存在很强的相似性,提出了将协同学理论运用于模式识别中,并根据序