使用基于语义的混合聚类算法的用户兴趣建模

来源 :重庆大学 | 被引量 : 0次 | 上传用户:kyunlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从1991年Internet上万维网公共服务的首次亮相,各种各样的信息就以指数级的增长速度充斥于Internet中,人们寻找信息的方式也随之发生了变化。从最原始的手工查找,到书签服务,再到传统的搜索引擎,如何从海量的信息中挖掘出有用的质量高的信息成了人们关心的话题。而像Google、Baidu等传统搜索引擎已经日益满足不了人们更为挑剔的需求,尽管它们也做了很大的改进。未来的搜索引擎在传统基础上必须更加智能化、个性化。语义Web在一定程度上从源端解决了信息的语义问题,不过其研究仍处于初期阶段,真正投入使用仍需很长一段时间,并且我们未能保证其运行效果。为了满足人们的近期需求,我们采用数据挖掘和本体技术,从目的端入手,通过挖掘用户的兴趣,为其提供更加智能化、个性化的服务。前提是我们必须有一个良好的用户兴趣模型。本文针对这样的前提,进行了较为深入的研究,并通过实验验证其有效性。以下是其主要贡献点:  ①基于HowNet的文本语义计算  文本相似度大多数是采用基于概率统计的传统计算方法,最典型的方法是向量空间模型,将文本表示成特征词向量,然后采用余弦函数或其它相似度函数进行计算。这种方法基于这样一种假设:词间是正交关系。而且往往忽略了词间本身蕴含的语义信息。本文在传统方法的基础上,结合了语义;根据HowNet中描述的概念间关系计算词间的语义相似度,利用二部图最大权匹配并结合传统非语义距离得到文本语义相似度。  ②基于语义的混合聚类算法HCA  为了自动地较为准确地挖掘出用户的兴趣类,本文提出了一种改进的基于语义的综合了k-medoids算法、GA算法和ISODATA算法的混合聚类算法:  1)混合算法被证明是一种可行的优势互补的方法,k-medoids算法虽快速,但易陷局部最优;GA算法具备全局最优的优势,但易受迭代次数与计算代价的影响;ISODATA算法以变异算子的方式防止GA算法陷入局部最优;  2)将文本的语义信息引入GA和k-medoids的适应度函数计算中,提高聚类结果的质量;  3)在GA适应度函数计算过程中,本文考虑了类内聚散度和类间离合度,采用基于语义的CS Measure变体进行计算,保证聚类的效果;  4)在GA迭代过程中,本文引入改进后的自适应的交叉率与变异率,防止GA过早收敛和过度发散。  ③基于HCA的用户兴趣建模  本文采用基于语义的二级向量(特征向量与偏好向量)空间模型描述用户的近期兴趣类,并且每个兴趣类有其对应的兴趣度,因此,模型的每个单元被表示成一个三元组,包括二级向量及其兴趣度。采用基于语义的HCA挖掘用户的兴趣类,并结合文本语义相似度和用户行为计算用户类兴趣度;然后依据所得的二级向量和其对应的兴趣度来构建用户兴趣模型,并将其转化成用户兴趣描述文件。  ④实验验证  最后,本文对上述方法进行实验验证。实验证明(聚类效果采用F-measure进行衡量):  1)在不考虑文本语义并使用同种文本非语义距离计算方法的情况下,HCA相比现有两种传统聚类算法具有更佳的聚类效果,验证了HCA本身的有效性;  2)引入文本语义相似度后,基于语义的HCA及现有传统聚类算法相比未使用语义的本身而言有着显著的聚类质量提升,同时HCA效果好于其他两种算法,表明语义的引入对聚类质量具有显著的改善效果,同时也验证了HCA的有效性;  3)将基于语义HCA的用户兴趣模型,应用于个性化检索实验原型系统PSE中,同未采用本文方法的商业搜索引擎得到的结果相比,其结果更为满足用户的个性化需求。  本文研究提出的基于语义的用户建模技术及其中间关键技术,可应用于各种个性化服务中(如:个性化检索推荐、个性化站点等)。此外,在许多特定领域中都有很大的应用价值和商业价值,如:电子商务、社交网络、图书检索等,这些领域对用户的个性化需求要求很高。
其他文献
目前,多媒体在各个领域都有着自己重要的作用,比如说体育事业,新闻事业甚至于到家庭等领域,而多媒体技术的发展更推动了它的推广和使用。这样同时也就产生了数量浩大的视频数
知识处理是信息技术发展的必然趋势,随着对知识应用要求越来越高,传统的知识库系统已经不能满足新的需求。而得益近几年语义网(SemanticWeb)的迅速发展,构建起了一套比较规范的
随着视频监控应用的广泛发展,网络视频监控系统逐渐成为视频监控领域的主流。为了在有限带宽下高效传输符合质量要求的视频图像,联合视频工作组JVT(Joint Vedio Team)在2003
汽车轮毂自动识别系统主要是研究了一种机器视觉系统,这种系统能够识别流水生产线上不同款式、不同型号的多种汽车轮毂。这种识别系统的优势在于:非接触性、在线实时性、高精
在当今信息爆炸的时代,海量数据不断涌现,而且这些数据仍在以每三个月增长一倍的速度持续增长着。因此,如果不借助有效的信息挖掘方法,这些异构海量数据将可能最终变成无人关
近年来,软件的可信性问题再度引起广泛关注,航空、核工业、电信、金融、电力和交通等国家重要领域的信息化程度日益提高,国家基础设施的运转越来越依赖于大型分布式软件系统,
聚类技术是用于数据分析的最常应用的技术之一,其应用领域涉及统计学、计算机科学、生物学以及社会学等。传统的聚类算法如常见的K-means算法,EM算法等都是建立在凸状分布的
随着Internet的飞速发展,网络已经成为对外宣传以及了解世界的窗口。万维网(World Wide Web)为人们提供丰富信息的同时,也留下了用户浏览页面时的大量访问信息。如何利用这些
话题检测与跟踪(TDT)作为一项帮助人们解决信息过载问题的研究,它通过对新闻流中新话题的识别和追踪,将某个话题相关的报道聚集并呈现给用户。但新闻话题的浏览不应该局限于扁
现代密码技术作为信息安全的基础受到了广泛的关注和高度的重视,提出能适应各行各业且安全性较好、成本较低廉、结构较简单的认证加密工作模式已成为现代密码技术研究的热点