互联网中的海量用户行为挖掘算法研究

被引量 : 0次 | 上传用户:adayidaai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术以及互联网的飞速发展,在Web中产生了越来越多的基于用户的应用,这些应用数年来收集了海量的用户行为数据,且数据还正以指数级增长,这些海量数据中包含了大量和用户相关的信息。及时、精确地从这些海量用户信息中发现有用的知识,挖掘出这些数据背后隐藏的用户行为模式,能够帮助互联网应用提供更好的用户体验,并提高企业的市场竞争力。本文采用数据挖掘的方法对互联网中的用户行为进行分析挖掘,找出其中隐藏的规律与模式。并从基于Web2.0的社会化标记系统中的用户标记行为分析和互联网搜索引擎中的用户检索行为分析两个方面进行说明。(1)在社会化标记系统中,用户可以自主采用不同的标签标记资源,并利用这些用户标签实现信息资源的组织、分类和检索,但是这种自由的用户标记行为存在着信息描述不精确、标签组织混乱和标签语意模糊等问题。现有研究常采用聚类等数据挖掘技术来解决这些问题,现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类的精确度与召回率并不高。针对此问题,本文提出了一种新的标签聚类算法,充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签,根据余弦相似度公式得到较为准确的标签相似度,然后采用K-Means算法将用户标签进行聚类。实验结果表明该算法能够得到更加精确的聚类结果。最后将该算法应用于中国科学技术大学《图书馆交互式科研管理平台》证明该算法的实用性。(2)另一方面,在搜索引擎中,后台日志会记录用户输入的查询词和点击的URL,作为用户与搜索引擎的交互信息。通过挖掘搜索引擎日志中的用户行为,可以发现用户的行为规律,收集统计信息,进而用来改善搜索引擎返回结果的排序。但是由于搜索引擎中日志记录数据海量的特性,传统的聚类算法无法适用在搜索引擎用户行为分析中。针对此问题,本文对搜索引擎中的用户行为采用三部图模型建模,利用特征向量来表征用户输入的查询词,并提出一种基于倒排表查询和MapReduce的分布式K-Means聚类算法,实验证明该算法能够应对海量用户查询词聚类的问题,并且在大规模数据集下表现出高效的性能。最后再根据实验得到的聚类结果分析当前互联网搜索引擎中用户行为的特点。
其他文献
随着我国金融体制改革的全面推进,我国加入WTO后取消对本国金融企业的保护,商业银行的市场结构正在发生深刻的变化。国有银行成功改制上市,实力雄厚的外资银行不断涌入,中国
面向能力单元的流程,也许能解开任正非的困惑。任正非说:“时代变化太快,流程管理都是僵化的,要跟上时代变化。找到一种模式,普适是不可能的。”任正非所说的流程管理僵化问题
近年来,全世界各类自然灾害不断爆发,给社会生产和人民生活造成了巨大损失。与此同时,随着社会系统组织程度复杂性的不断加深,系统之间的关联度和依赖性也日益增加,自然灾害
在汽车向电子化、智能化方向发展的趋势要求下,车载电子设备不断的增加,而线束作为各种电子设备的连接纽带,在汽车的电器网络中扮演着十分重要的角色,可以说没有线束网络就没
自1986年斯波伯和威尔逊在其《关联性:交际与认知》一书中提出关联理论以来,人们开始进一步从认知的角度探讨人类交际的总原则。基于关联理论,结合前人的研究成果,作者认为阅
四倍体细胞在胚胎组织发育过程中会出现严重偏离分布现象,因为在个体发育过程中,其仅能参与胚外组织的形成。将一定数量的ES细胞或iPS细胞与四倍体胚胎嵌合,在嵌合胚胎发育过
液化天然气(LNG)作为一种清洁、高效、方便、安全的能源,以其热值高、污染少、储运方便等特点成为当今世界消费增长最快的优质能源之一。由于我国天然气资源分布零散,单井气
混凝土的寿命预测在近些年是一个研究热点,多数学者都是以Fick第二定律为基础,研究氯离子渗透进入混凝土后的分布情况,预测混凝土结构的寿命,然而Fick第二定律的边界条件不符
伴随Internet迅猛发展的是呈指数级别增长的海量信息数据,对这些海量的数据中寻找对用户有用的信息成为一个重大的挑战,数据挖掘技术在此背景下应运而生并成为信息处理和数据
空间优化选址是GIS空间决策分析的重要问题之一,指的是在一定地理区域内为一个或多个空间对象选定合适的位置,使某一指标或综合指标达到最优的过程。此问题常常涉及高维地理