基于改进PrefixSpan算法的移动Web序列模式挖掘

来源 :商场现代化 | 被引量 : 0次 | 上传用户:ary015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 随着移动商务的迅速发展,移动用户面临的带宽限制和信息贫乏问题也日益凸显。Web使用挖掘通过对用户访问Web时在服务器留下的访问记录进行挖掘,在海量Web日志数据中自动、快速地发现用户访问序列模式。通过模式分析向移动用户推荐其感兴趣的内容。论文在比较几种常用序列模式挖掘算法的基础上,着重对PrefixSpan算法进行了研究和优化。
  [关键词] 移动商务 Web使用挖掘 PrefixSpan算法 序列模式
  
  一、引言
  
  随着移动网络的快速发展和电子商务的广泛应用,移动网络用户对于商务信息的需求也大幅提升。据中国互联网络信息中心(CNNIC)2007年1月发布的《第19次中国互联网络发展状况统计报告》显示,截至2006年底,我国网民人数达到了1.37亿,其中,新兴上网方式——手机上网也初具规模,达到1700万人。手机上网将成为互联网接入方式的新潮流。但在对使用手机上网的网民进行调查发现,有72.2%和30.9%的网民使用手机上网主要是收发邮件和浏览信息,而费用高(占86.4%)、网速慢(占33.4%)是网民使用手机上网经常遇到的问题;此外,不方便、可获取信息太少等也成为网民不使用手机上网的原因。一方面是以手机为代表的移动设备的迅速发展,而另一方面却是移动商务网站上的信息贫乏和服务落后,解决方法之一就是进行Web使用挖掘,寻找移动商务客户感兴趣的内容并向其推荐。
  Web使用挖掘是对用户访问Web时在服务器留下的访问记录进行挖掘,挖掘对象是在服务器上的日志信息,也称为Web日志挖掘,其目的是在海量的Web日志数据中自动、快速地发现用户的访问模式(即序列模式)。在经过对这些模式进行分析和可视化之后,可以为用户提供个性化的服务。序列模式挖掘是模式发现中运用得比较成功的方法,本文在比较几种常用的序列模式挖掘算法的基础上,对PrefixSpan算法进行了研究和优化。
  
  二、序列模式挖掘算法
  
  序列模式挖掘是从序列数据库中发现频繁子序列作为模式,被广泛应用于客户购买行为模式预测、网络访问模式预测、疾病治疗早期诊断、自然灾害预测及DNA序列破译等方面。序列模式最早由Agrawal R和Srikant R提出,常用算法有:
  ·AprioriAll算法在每一次扫描数据库时,利用上一次扫描时产生的大序列生成候选序列,并在扫描同时计算支持度,满足支持度的候选序列作为下次扫描的大序列。算法主要缺陷在于容易生成庞大的候选序列集和需要多次扫描数据库,不易发现长序列模式并导致较大开销;
  ·GSP(Generalized Sequential Patterns)算法类似于Apriori算法,但引入了时间约束、滑动时间窗和分类层次技术,有效减少了候选序列数量和无用模式。然而GSP算法仍然需要对序列数据库进行循环扫描;若序列数据库规模比较大,可能产生大量候选序列模式;且难以处理长序列模式的情况;
  ·FreeSpan算法以Apriori-based演算法为基础,但改进了产生候选序列的方式并验证是否为高频序列。该方法将搜寻区域由大范围的完整资料库改为小范围的映射资料库,产生的候选序列数量较少,也减少了扫描资料库的时间,并提升了挖掘的效率。但该算法必须完整保留与该项目有关的序列,且在产生候选序列时并不考虑顺序性,因此可能产生过多的候选序列。
  本文将要论述的PrefixSpan算法与FreeSpan类似,但PrefixSpan不需要产生候选序列,从而大大缩减了检索空间;相对于原始的序列数据库而言,投影数据库的规模不断减小。PrefixSpan算法的缺点在于建立映射资料区间的成本很高,若资料项目平均分配在每个序列中,则成本便会急剧增加。下面对该算法进行介绍和优化。
  
  三、PrefixSpan算法及其改进
  
  1.符号化表示
  序列(Sequence):是不同项目集(ItemSet)的有序排列,一个序列S可以表示为,,为项目集(ItemSet),也称为序列S的元素。
  子序列:设如果存在整数使得则称序列α为序列β的子序列,记为。
  序列α在序列数据库S中的支持数:序列数据库S中包含序列 α的序列个數,记为Suuport(α)。
  序列模式:给定支持度阈值ξ,如果序列α在序列数据库中的支持数不低于ξ,则称序列α为序列模式。长度为1的序列模式记为1-模式。
  2.算法描述
  给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式。具体算法如下:
  ·扫描序列数据库,生成所有长度为1的序列模式;
  ·根据长度为1的序列模式,生成相应的投影数据库;
  ·在相应的投影数据库上重复上述步骤,直到在相应的投影数据库上不能产生长度为1的序列模式为止。算法描述如图1所示。
  例如:序列数据库S如表1所示,并设用户指定的最小支持度min_support=2。
  通过对表1给出的序列数据库S进行扫描,产生长度为1的序列模式有::4,:4,:4,:3,:3,:3。
  序列模式的全集是分别以
为前缀的序列模式的集合,现构造不同前缀所对应的投影数据库,结果如表2所示:
  分别对不同的投影数据库重复上述过程,直到没有新的长度为1的序列模式产生为止。
  3.PrefixSpan算法
  输入:序列数据库 及最小支持度阈值min_sup
  输出:所有的序列模式
  方法:调用子程序PrefixSpan(<>,0,S)
  在子程序PrefixSpan(α,L,S|α)中,参数α为一个序列模式, L为序列模式α的长度,当α为空则S|α为S,否则为α的投影数据库。子程序算法如下:
  ·扫描S|α,找到满足下述要求的长度为1的序列模式b:(1) b可以添加到α的最后一个元素中并为序列模式;(2)可以α的最后一个元素并为序列模式;
  ·对每个生成的序列模式b,将b添加到α形成序列模式α`,并输出α`;
  ·对每个α`,构造α`的投影数据库S|α`,并调用子程序PrefixSpan(α,L+1,S|α`)
  
  四、PrefixSpan算法改进
  
  由于PrefixSpan算法的主要开销在于投影数据库的构造,因此对PrefixSpan算法的改进主要是从减少投影数据库入手。
  1.隔层投影
  使用隔层投影代替逐层投影,从而可以有效减小投影数据库的个数。
  仍以前面所述的序列数据库为例,改用隔层投影,具体步骤如下:
  (1)扫描序列数据库,产生所有长度为1的序列模式;
  (2)再次扫描序列数据库,构造一个下三角矩阵(如表3所示),得到所有长度为2的序列模式;
  (3)构造长度为2的序列模式所对应的扫描数据库,并对每个投影数据库重复上面的操作,直到没有新的序列模式产生为止。
  2.伪投影
  当序列数据库可以直接放入内存时,可使用伪投影代替实际的投影数据库,从而有效减少构造投影数据库的开销;同时,不需要构造所有的序列模式对应的投影数据库,可使用指向数据库中序列的指针及其偏移量作为伪投影。
  例如,针对上述序列数据库构造α投影数据库时,序列S1=所对应的伪投影为一个指向S1的指针,指针偏移设定为2。同样地,序列S1的投影数据库对应的伪投影也是一个指向S1的指针,但指针偏移设定为4。以此类推。
  
  五、结论
  
  本文在比较几种常用序列模式挖掘算法的基础上,重点介绍了PrefixSpan算法并对其改进,以隔层投影代替逐层投影和伪投影方式,减少序列模式扫描过程中产生的投影数据库,从而降低系统开销,提高挖掘效率。下一步将致力于建立个性化移动商务推荐系统,更好地为移动客户服务。
  
  参考文献:
  [1]中国互联网信息中心(CNNIC). 第19次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/html/Dir/2007/01/22/4395.htm
  [2]来玲杨宝森:用Web挖掘方法扩充大学图书馆知识库研究[J].情报杂志,2005(2):18-20
  [3]Agrawal R,Srikant R. Mining Sequential Patterns [A]. Proceedings of the International Conference on Data Engineering[C].Tapei:IEEE Computer Society,1995. 3-14
  [4]Agrawal R,Srikant R. Mining Sequential Patterns:Generalizations and Performance Improvements [A]. Proceedings of the International Conference on Extending Database Technology(EDBT). Avgnon:Lecture Notes in Computer Science,1996. 3-17
  [5]Han JiaWei,PeiJian. FreeSpan:Frequent Pattern-projected Sequential Pattern Mining [A]. Proceedings of the International Conference on Knowledge Discovery and Data Mining(KDD’00)[C]. Boston:MAAC Press,2000. 35-359
  [6]Pei Jian,Han Jiawei. Mining Squential Patterns by Pattern-growth:The PrefixSpan Approach [J]. IEEE Translations Knowledge and Data Engineering,2004,6(10):1-17
  
  注:“本文中所涉及到的圖表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
[摘要]今年1月4日正式对外公布以来,SHIBOR引起了较为广泛的关注。SHIBOR是否能够成为中国的基准利率、是否能够在中国利率市场化进程中发挥应有的作用也成为了一个较受关注的话题。本文在比较原普遍采用的基准利率后分析SHIBOR的优势,并提出完善SHIBOR、使之能够切实发挥中国基准利率作用的几点措施。  [关键词]SHIBOR基准利率利率市场化    一、 引言    利率是借贷资金的价格,
期刊
[摘要]三峡库区人口众多,农业经济基础薄弱,农村教育相对落后。三峡工程加剧了库区的人地矛盾,农村剩余劳动力就业与农民增收难等问题突出。加强三峡库区农村剩余劳动力转移培训对提高库区农民素质、促进剩余劳动力有效转移、实现农民生活富裕和社会安稳、构建和谐三峡具有重要现实意义。  [关键词]三峡库区农村劳动力转移培训     一、三峡库区开展农村剩余劳动力转移培训的必要性    1.开展农村剩余劳动力转移
期刊
一、数据挖掘概述    由于Internet的发展,网上数据的不断激增,人们对网上信息的应用需求也不断提高,将这些数据进行复杂的应用成了现今数据库技术的研究热点。将传统数据库技术直接应用于网上数据的最大困难在于:传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是缺乏统一的、固定的模式,数据往往是不规则且经常变动的半结构化(即是相对于完全结构化的传统数据库的
期刊
[摘要] 本文通过实例研究介绍了企业在科技发展战略规划上的实施步骤,通过体系的建立、规划、实施和反馈,有效的解决了企业在科技发展上的一系列问题,为企业的未来科技发展建立行之有效的科学体系。  [关键词] 科技发展 创新体系 组织模式    科技发展是一个企业在发展道路上必然经历的一个提升阶段,企业的科技发展水平是制约企业发展壮大的瓶颈,本文结合实例就A企业集团建立科技发展战略规划。    一、完善
期刊
基金项目:河北省交通厅“九五”行业联合科技攻关项目,编号“HG-950403”,名称“邯郸交通信息网络研究”  [摘要] 在Web应用中,操作用户的信息和操作过程中的数据经常会存放在Session中,Session信息可提高程序的运行效率和灵活性。当用户退出系统后,如果不对该用户的Session信息及时清除,在一定的时间内仍有可能会驻留在服务器上,不仅会造成Web服务器资源浪费,而且更为严重的会使
期刊
[摘要] 将HU理论应用于企业经营管理实践中,有助于企业利润基数的确定更加优化合理。  [关键词] HU理论 利润考核 联合基数确定法 应用    杭州多元贸易有限公司营销部下辖三个业务科,每年根据利润额考核各业务科业绩。现行考核方法是:首先确定公司利润额总目标,其次根据各业务科占用公司资源多寡及其划分的市场区域现状,将总利润分解至各业务科,确定各科的利润基数(分解过程形式上属于硬性分摊,没有正式
期刊
[摘要] 本文采用SWOT分析的方法对奇瑞选择伊朗这样消费能力有限的市场,作为产业资本输出海外市场的战略进行分析。从其优势、劣势、机会和威胁四个方面综合评论这一战略的可行性。  [关键词] 奇瑞 伊朗 SWOT    一、绪论    2004年6月,伊朗汽车消费者协会主席马苏德?德黑兰奇宣布,一款由中国和伊朗合作生产,面向低收入阶层的轿车获得生产许可。这次上汽集团奇瑞汽车有限公司与伊朗SKT公司的
期刊
[摘要] 对第三方物流企业的评价体系的建立对合理评估企业结构,核心竞争力和生存能力有着重要的意义。本文从评价指标的选择和评价算法以及实际操作过程中评价系统与3pl企业子网实现跨网络数据交换的两个方面着手,讨论了一种基于Web Service技术的3pl评价体系。  [关键词] 第三方物流 评价 Web Service    一、概述    第三方物流是在业务外包的环境下产生的。在经济全球化的背景下
期刊
[摘要] VI战略作为企业形象的建立,主要体现在视觉上,谈到VI就必须谈到设计和意识。商场的VI设计,不光是指单纯的美术设计,而是广泛意义上的设计。设计是重要的,那么意识就更重要,具有超前意识的人在设计的时候自然会想的更多,看得更远。设计出来的作品当然能贴切主题,取得成功。  [关键词] VI 设计与意识 视觉传达 灵感    商场作为一个营销场所,提供给各类厂家、经销商一个经营环境,所面临的不单
期刊
[摘要] 品牌竞争是未来旅游业竞争的必然趋势。本文在分析重庆旅游品牌化发展现状与问题的基础上,在主题、名称、标志、商标化等方面对重庆旅游品牌形象进行了创新设计,提出了塑造并发展重庆旅游品牌的策略和途径。  [关键词] 重庆市 旅游品牌 创新设计    在日趋激烈的旅游市场竞争中,品牌竞争已成必然趋势。要在激烈市场竞争中立于不败,重庆旅游必须以品牌化发展来增强其核心竞争力,提升旅游地整体形象。  一
期刊
期刊论文基于改进PrefixSpan算法的移动Web序列模式挖掘发表于2007年23期商场现代化作者王素凤 邓 玫,本篇论文的所有权归原作者王素凤 邓 玫所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。