论文部分内容阅读
万维网(World Wide Web)随着近十年来的迅猛发展,已经成为一个巨大而复杂的信息空间.当用户面对这样快速增长的信息空间时,往往感觉到"信息过载".面对这样的问题,Web挖掘技术应运而生.该技术结合信息检索,数据挖掘以及知识管理等技术,帮助用户快速的查找和管理所需要的信息.针对研究对象的不同,目前Web挖掘技术有三大研究方向:Web内容挖掘、Web结构挖掘以及Web使用挖掘.
随着用户对Web上信息的进一步使用,在基本的Web内容数据的基础上衍生出了其他类型的数据.比如:用户的网站浏览数据,用户查询日志数据以及用户评价数据等.在这些数据中包含了多种对象,其中包括用户、查询词,所点击浏览的页面等.并且这些对象不仅包含自身的性质,也同时与其他不同的对象之间存在多种关联关系.我们称之为:多关系异构对象.这种多关系异构对象数据包含了大量有价值的信息,充分利用这些信息能有效的提高用户对Web信息获取的满意度、提高信息的利用率.当前的Web挖掘研究并没有涉及该种复杂数据的挖掘问题.由于该数据数量巨大但关联关系很稀疏,使得对该种数据的挖掘成为非常巨大的挑战.本课题通过拓宽当前Web挖掘对象的范围,提出了多关系异构对象挖掘研究来解决这些问题.在该研究中,我们相应的提出了多关系异构对象内容挖掘、多关系异构对象结构挖掘以及多关系异构对象使用挖掘的概念,并针对每个类别提出了一系列的挖掘算法并进行了体系化的理论研究工作.
本课题的研究提出了以下创新性的理论:
1. 多关系异构对象的潜在语义分析.考虑到对象本身的内容信息以及与之关联的对象信息,我们提出一种概率潜在语义分析模型来统一内容信息以及关系信息获得更好的聚类效果.
2.基于迭代的互增强算法.在信任网络传播理论下,对象的类信息以及同构对象的相似度信息可以被迭代的传播到与之相关联的对象中去.
3.基于耗散热传导模型的链接分析算法.传统的PageRank算法不能在复杂的基于层次的链接结构图上进行分析.为了解决这个问题,我们首次提出一种基于耗散热传导的层次化链接分析算法.该算法不仅考虑链接结构,同时也考虑到链接结构图的层次信息.
4.解决数据稀疏性问题的数据平滑算法.数据稀疏性问题是协同过滤中一个非常重要的问题.为了填补数据中缺失的值,我们利用聚类信息来平滑数据稀疏性问题.通过聚类信息,我们可以将利用类信息来填充个体缺失的信息.
5.用户语言模型研究.我们创新地提出一个基于统计语言模型的用户个性化模型,其集成个体、团体以及全部用户的模型来提供更准确用户模型,同时解决用户个人信息稀疏性问题.其中,全部用户的模型来平滑个体模型中没有出现的词,同时将用户聚类,利用聚类用户的行为来平滑个体中缺失的信息.
6.存储与模型统一的协同过滤理论.基于存储的协同过滤面临数据稀疏以及耗时等问题而基于模型的协同过滤丢失了用户的个性的多样性,我们提出一个新型的协同过滤模型,其集成基于存储的协同过滤与基于模型的协同过滤为一体来提供更好的推荐.
这些理论贯穿了多关系异构对象挖掘的三个方向.本课题研究的大量实验结果也表明我们提出的算法是可行有效的.其中提出的很多算法也被应用到国家自然科学项目中.