论文部分内容阅读
在信息化时代里,数据存储量与日俱增,为了从这些看似毫无规律的数据中得到有价值的资料,数据挖掘技术应时而生,在近一个多世纪中,它得到了飞速的发展,且在诸多领域中应用越来越普遍。其中,对聚类分析的研究一直是数据挖掘发展历程中的重点内容之一。最近几十年,新兴的群体智能算法如粒子群算法、蛙跳算法等在优化领域获得了巨大的成功。作为群体智能算法之一,人工鱼群算法自被提出后,引起了诸多专家学者的注意,为了提高实用性,它被广泛应用到不同领域,其中包括数据挖掘领域。另外,高校图书馆有着相对固定的读者,大批用户数据在日常的读者服务中产生。图书馆系统中的记录是读者实现自我需要的行为结果,也是图书馆资源被读者认可的有力凭证。一些与用户相关的知识隐藏在读者信息、馆藏图书信息以及用户借阅记录等数据之间。出于商业利益的考虑,目前各界对高校读者行为分析的研究还不是很多。本论文通过研究K-means聚类算法和人工鱼群算法,设计了一种新的基于改进人工鱼群的混合聚类算法,并以此作为核心算法,对文中提出的三种读者行为分析模型进行聚类,为图书馆对读者借阅规律的把握、馆藏图书受喜爱程度,服务模式提升等方面提供一定的依据。首先,设计并实现了一种基于改进人工鱼群的混合聚类算法。该算法从以下几个方面进行了改进:对参数视野采用矢量的形式,以待聚类样本的各属性值的标准差为基准;对追尾算子融合粒子群策略;在迭代过程中随机选择一小部分不为最优状态的人工鱼,按照最近邻原则,执行K-means行为。实验证明,该算法综合了人工鱼群算法和K-means两者的优点,不仅能克服K-means敏感的初始质心选择问题,同时还能提高AFSA后期收敛速度,可以用相对较短的时间获得质量最优的聚类簇。其次,对图书馆系统中读者基本信息、馆藏信息和用户借阅记录,进行整理、清洗和转化,根据本文研究需要,提出的三种读者行为分析模型:读者借阅模型、图书流通模型和单本借阅特性模型。最后,将该改进的算法应用到三个分析模型中,发现其中的规律特点,为指导读者借阅行为,提高资源利用率,优化服务模式等提供事实依据。