基于用户兴趣和模糊聚类的Web日志挖掘应用研究

来源 :福州大学 | 被引量 : 1次 | 上传用户:zhxg1030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的大数据时代,如何从爆炸式的互联网信息槽中挖掘出有价值、有商机的信息,成为各行各业研究的热点之一,也是各类决策者迫切需要解决的问题。Web日志挖掘技术是解决这类问题有效途径之一,它将互联网技术和数据挖掘技术相结合,挖掘出隐藏在Web日志上的未知的、有价值的信息,从而得出有用的知识。聚类分析是Web日志挖掘领域中应用最广泛的挖掘算法之一,包括Web用户聚类、页面聚类和会话聚类。其中,Web用户聚类最具有实际应用价值,该方法是通过分析用户的访问足迹,挖掘用户的浏览兴趣和习惯,自动将访问模式相同或相似的用户划分到同一组中,便于改进站点结构、制定个性化服务、提供商业决策依据等。由于Web日志数据对象存在模糊性和不确定性,它们可能在一定程度上隶属于某个类别,但同时也可能在某些程度上隶属于另外一个甚至多个类别,而传统的硬聚类算法只将数据对象划分到唯一某个类别中。因此,本文在进行Web用户聚类过程中,采用模糊聚类算法,利用模糊集概念,弥补传统硬聚类的缺陷,提高挖掘结果的准确性。本文主要研究Web日志挖掘中的Web用户聚类,分别从用户相似度和聚类算法这两方面进行改进,然后使用改进的算法进行Web日志挖掘,得到Web用户聚类结果。一方面,提出改进的用户兴趣相似度算法。通过度量用户兴趣的因素——用户的浏览行为、点击行为和反馈行为,提取出更能体现用户真实兴趣的用户特征,运用模糊多重集和最大最小值法进行相似度计算。另一方面,针对模糊聚类中模糊C-均值聚类(FCM)算法存在模糊权重m的不确定性和易于收敛到局部极值的缺点,提出基于共享历史最优粒子群的自适应模糊C-均值聚类(SHBPSO-AFCM)算法。该算法的主要内容:从位置更新公式、速度更新公式和适应度函数三个方面对标准粒子群优化算法进行改进;将改进后的粒子群优化算法与FCM算法相结合,提高算法的全局寻优能力;将模糊权重m嵌入到粒子群优化算法中,利用粒子群优化算法的多次迭代,自适应产生最优的模糊权重n值,以解决FCM算法存在的问题。实验结果表明,该算法能提高聚类的准确性和有效性。
其他文献
随着Internet技术日新月异飞速发展,互联网上信息数量也在急剧增长。目前很多自动化应用能够帮助我们从互联网上的海量数据中提取出我们所需的内容,可是网页信息不仅包含网页
随着位置感知移动电子设备的广泛应用,基于位置服务(Location Based Service,LBS)几乎在所有的社会领域和商业领域广泛流行。然而,用户位置隐私与查询隐私泄露问题阻碍了基于
《行政诉讼法》的修改,为检察机关提起行政公益诉讼提供了法律上的依据。近些年,我国开展了行政公益诉讼的试点工作。在实践中,行政公益诉讼发挥了重要的作用。诉前程序是行政公益诉讼的必经程序,与行政公益诉讼相辅相成、缺一不可。检察机关提起公益诉讼的前置程序——诉前程序的核心目的在于,既能够为行政机关提供自我纠错的机会,又能够节约司法资源,同时,也体现了检察权的抑谦审慎性原则。诉前程序在不仅有助于行政公益诉
社交网络的本质在于借助社交网络能够快速形成社会舆论,进而影响人们的思想和行为。然而,负面的群体行为影响社会的稳定。现有的群体行为引导方法一般包括:政治限制、主流媒
随着各种计算机网络信息技术的不断进步与革新,互联网中越来越多的数据如图像、文本等信息资源得到了更多的共享,这也给人们的日常生活中无论生活工作方式还是娱乐方式都带来了极大的改变。而相应的,技术爆炸带来了信息的爆炸式增长,人们淹没在各种各样不同领域的信息海洋里,想要通过简单搜索和查找找到自己真正感兴趣或是要使用的内容也随之变得越来越难。所以为了解决信息超载问题,推荐系统成为了最有可行性的办法之一。目前
车辆路径问题是对车辆配送路径进行优化,实现物流配送成本最低,是物流运作系统的核心问题,在现实中具有广泛的应用。三维装箱问题是寻找一个合理的方案将所有小盒子装入一个
目前,随着互联网和多媒体技术的快速发展,图像数量呈指数方式增长,图像传播和拷贝变得越来越便捷,因此多媒体内容的版权保护成为一个亟需解决的问题。基于内容的图像拷贝检测
在全国范围内取消公路省界收费站的背景下,ETC系统现已成为立交匝道收费站处主要的收费方式。本文以“机荷高速公路立体扩容改造”项目为依托,旨在对该项目所包含的双喇叭立交,在完成自由流收费模式改造后,为连接线路段提供交通安全相关技术问题的解决方案和理论支撑。论文总结了国内外相关研究成果,提出了自由流收费模式的概念,确定了立交匝道收费站路段ETC门架的布设位置。然后研究分析了双喇叭立交连接线路段的交通流
生物发光断层成像(Bioluminescence Tomolography,BLT)是在已知生物组织的光学参数和生物体表面的光强分布情况下,重建光源在生物体内的三维分布情况。该技术是医学影像技术
随着信息技术的发展,数据的采集和发布越发普遍,数据的价值也在不断凸显。与此同时,数据的隐私安全问题日益受到人们的关注。为此,研究人员提出许多有效的隐私保护模型,其中