论文部分内容阅读
互联网的迅猛发展,为人们提供了各种信息资源,然而,如此庞大的信息量为人们寻找自己真正感兴趣的信息带来了困难。因此,要为用户提供更好的服务,关键是发现用户的潜在访问兴趣。解决这一问题的方法就是将传统的数据挖掘技术应用于Web上.用户如何得到想要的信息并能指导用户的决策行为,成为一个很重要、迫切的问题。对因特网上的网页数据模型进行研究,全面、准确、高效的提取和推荐用户所需的信息,对此就显得十分必要。信息提取和推荐技术(特别是个性化的技术)就是在这样的背景下产生的,它是在internet出现,特别是在电子商务蓬勃发展起来之后产生的web页面挖掘的一个新的分支。本文首先介绍了论文的研究背景,意义以及针对此研究领域的国内外的研究现状和论文的结构等等。其次是站点web信息提取和站点个性化信息推荐系统研究。信息提取技术主要介绍Web信息提取的功能分类,标准,相关技术以及分块信息提取的相关技术与算法研究,推荐技术主要介绍信息推荐系统的简介,分类,输入输出及表现形式,信息推荐的关键技术(包括思想,分类,步骤及算法等)。本文重点分析了站点分块信息提取以及网站信息推荐算法特别是电子商务网站的协同过滤推荐算法进行了研究。针对信息提取与推荐中的一些问题提出了自己的解决方法,在一定程度上有效解决了提取与推荐中的效率与准确性问题,通过实验证明了算法具有一定的合理性和有效性。以整个的Web页面作为最小的信息提取单元的方式已逐渐不能适应Web页面信息提取的快速发展,我们把页面按照一定的算法划分为若干个区域(Block),把这些区域作为基本的信息处理和提取单元,并将这些区域赋予一定权值,进行准确高效的信息提取。在对网站的用户使用日志进行隐性信息提取的基础上,本文提出了利用用户聚类的方法,将具有相似兴趣的用户划分到同一个聚类中,这个工作可以离线进行,用此方法可大大节省算法在线处理数据的时间,提高对网站(特别是电子商务网站)协同过滤信息推荐的效率,有效解决了数据稀疏性,系统可扩展性和冷启动等问题。但本文仍有许多不足之处有待改进:1、信息提取与推荐的实时性与信息质量之间的平衡:页面挖掘的精度和实时性是一对矛盾。在提高速度同时,如何有效提高信息的质量,需要做进一步的研究。2、信息的隐私保护与信息安全问题。如何在对用户的决策行为提供信息服务的同时有效保护用户的隐私值得做进一步的研究。