论文部分内容阅读
Web中的信息量正以惊人的速度增加,从这些数据中抽取、过滤和发现有用的信息,成为人们的迫切需要。Web使用挖掘把数据挖掘技术应用于Web使用数据上,旨在得到隐藏于数据中的各种有意义的模式,这对提供个性化服务、改进Web系统性能和结构、提供商业决策支持等方面都有重要的理论和应用价值。本文旨在把智能计算技术应用到Web使用挖掘研究中,面向电子商务,设计统一理论框架下的挖掘模型和算法。通过对海量使用数据的收集、管理和分析,发掘其中隐含的规律和模式,从而向决策者提供决策支持,提高电子商务网站的性能和交易的安全性,这将给企业带来巨大的收益。以粒计算及其统一框架下的粗糙集、模糊集等作为理论基础,本文对Web使用挖掘研究中的若干关键技术和新应用领域展开深入研究。所取得的主要工作成果和创新点如下:1.提出一种新的多粒度用户行为数据收集方法。该方法通过可配置的插件嵌入服务器,隐式收集用户行为数据,能结合电子商务特有事件的数据,并简化后续预处理工作,解决Web日志的数据不可靠、类型单一、无法与其他电子商务事件数据集成等问题。实验证明该方法能以较低成本收集可靠的数据,为挖掘提供高质量的数据源。2.对现有的预处理模型进行优化。提出一种新的获取网站拓扑的混合方法:在线获取方法与Web日志补充方法的结合,能最大程度获取网站拓扑结构;提出一种“最近刚好使用”路径补充算法,以新的启发式规则在合理范围内补充缺失页面,能有效减少搜索空间,并使结果更合理可靠。3.针对Web使用挖掘中常见的高维数据,提出一种基于知识粒度的高效完备属性约简算法。深入分析现有属性约简算法低效的根源,基于知识粒度设计获取等价类的算法及计算正区域的等价算法,从而给出一种完备的属性约简算法。上述算法中使用动态SQL语句直接获取已排序的对象集,省略了类似研究中的排序步骤和正区域的渐增式算法,降低了实现的复杂度;使用五种新启发策略,可避免无用属性入选、更有效去除可省略的属性及缩减搜索空间,简化了中间结果从而保证了算法的高效性。理论分析及实验结果表明,本文算法在时间复杂度和实际求解时间方面均优于现有算法,能更好地适应海量数据集的挖掘。4.针对Web用户聚类,提出一种基于知识粒度的高属性维稀疏数据聚类算法框架。基于该框架,分别面向连续数据和离散数据,提出两种Web用户聚类算法。算法的基本思想是通过设计基于数据稀疏特征的维度阈值向量,跳跃式搜索维度上的等价颗粒,不需要把数据转化为二态变量,从而得到初始等价关系;设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强抗噪声能力;结合应用领域定义一种新的聚类质量评价模型。算法中引入多形式的用户行为描述指标,各种指标既可独立考核,也可以灵活组合,同时可兼顾决策者对指标的偏好。实验证明,算法准确度更高,能提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。5.基于上述研究,面向电子商务中的信任管理,提出一种基于贝叶斯网络和用户行为日志挖掘的行为信任预测与控制模型。针对目前评估网络用户行为的方法成本高且缺乏可操作性等问题,从用户行为日志中选取多种数据作为信任属性,构造贝叶斯网络,从而设计行为信任的预测和控制算法。使用改进的半模糊聚类算法设置、调整模型参数,建立可量化的证据与信任等级之间的对应关系。模型可以预测多属性下的行为信任等级,通过控制策略,可提高服务器的可靠性和安全性,并能有效约束用户的商业行为。通过实际应用,证明了模型的合理性和有效性。