论文部分内容阅读
在信息时代,传统的管理思想已经显得力不从心,企业的宗旨正在经历着由“以产品为中心”向“以客户为中心”的转变。通过用户特征分析,企业可以更好地理解用户,发现用户的行为规律。基于这些理解和规律,市场专家可以制定相应的市场策略,同时还可以针对不同用户组进行交叉分析,帮助企业发现用户群体间的变化规律。用户特征分析背后的思想是找到一组和某一个特定的用户在很多方面都相似的用户群。基于这种思想,可以利用数据挖掘中的聚类分析技术来实现用户特征分析。聚类分析是一种重要的人类行为,已经广泛地应用在许多领域中,包括模式识别、数据分析、图像处理,以及市场研究。另一个方面,随着web2.0的兴起和迅速发展,又出现了大量新兴的网络应用技术,如社会化标签。利用这些新的技术,可以很好地辅助聚类分析技术,从而对网络用户的特征进行挖掘和分析。本文以用户特征分析为目的,以聚类分析技术为手段,以社会化标签为辅助,对基于聚类的用户特征分析展开了研究。本文的具体工作包括以下几个方面:(1)基于状态信息的蚁群聚类算法。根据已有的蚁群聚类算法存在的空间和时间上的一些缺点,提出了一种新的基于状态信息的蚁群聚类算法SI-ACC,通过引入蚂蚁的状态信息,以及蚂蚁的行为模式和感觉阈限等概念,改善了算法的质量和自适应程度。(2)基于蚁群聚类的用户特征分析。利用SI-ACC算法对真实的申请银行信用卡的客户数据进行了聚类分析。算法成功地将客户聚成了不同的几个类,通过进一步的分析得出了每一类客户的特征,为银行发放信用卡和对客户进行价值和风险评估提供了决策支持。(3)基于社会化标签的单个用户的兴趣特征分析。针对web2.0中用户的兴趣属性,提出了一种基于标签组的用户兴趣标签图的建立和更新算法TC-Graph,该算法综合了质朴的方法和共存的方法各自的优点,并在计算图中结点和边的权重方面进行了改进和创新。通过该算法,较好地以兴趣标签图和有序标签组的形式反映了单个用户的兴趣特征。(4)基于社会化标签的群体用户的兴趣特征分析。为了计算用户之间兴趣的相似性,在用户兴趣标签图的基础上,提出了一种基于用户兴趣标签图的距离计算方法TC-G-D。该算法把用户的有序的兴趣标签组作为一种新的混合型数据来考虑,提出了对应距离和交叉距离的概念,并把两者综合起来衡量用户间的兴趣相似度,然后运用已有的基于距离的聚类算法对用户进行聚类分析。