序列挖掘算法研究及其在用户行为分析中的应用

被引量 : 11次 | 上传用户：wang____jiang

【摘要】

：

当今时代,随着生活中越来越多的数据和信息不断涌现,数据挖掘技术应运而生。序列挖掘作为数据挖掘技术中的一种重要方法,旨在从庞大的序列数据中发现隐藏的潜在有用模式及信

【作者】

：

肖扬

【发表日期】

：

2014年01期

【关键词】

：

隐马尔可夫模型高效用序列模式序列模式挖掘序列聚类数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今时代,随着生活中越来越多的数据和信息不断涌现,数据挖掘技术应运而生。序列挖掘作为数据挖掘技术中的一种重要方法,旨在从庞大的序列数据中发现隐藏的潜在有用模式及信息,它在信息网络、生物医学、金融行业、自然灾害预测等方面都有重要的作用。随着应用的发展,数据集的规模越来越大。现有序列挖掘算法挖掘效率较低,挖掘得到的序列模式过多,用户很难直接从中找出有用的序列模式,往往需要进行多次挖掘和筛选,严重影响了挖掘的价值。如何从海量序列数据中挖掘得到有用的关键模式信息成为序列挖掘领域面临的一个重要问题。针对这一问题,本文提出了种基于隐马尔可夫模型的两阶段序列挖掘算法：(1)使用基于K-means的序列预聚类算法,对序列数据进行预聚类处理。(2)使用基于HMM的高效用序列模式挖掘算法,对聚类得到的各簇集进行高效用模式挖掘。通过不同数据集实验,证明了算法在挖掘有用序列模式方面和传统序列模式挖掘算法相比具有更好的效果。针对用户行为分析领域——IaaS云平台用户性能故障行为分析方面,基于上述算法进行了应用和实现。本文首先深入研究了序列模式挖掘典型算法,对比分析了不同算法各自的优劣和适用场景。然后针对序列相似性度量的特殊性,提出了基于序列编辑距离的相似性度量方法,在此基础上,提出了一种基于K-means的序列预聚类算法,用于序列挖掘前数据的预处理分类。其次针对无法有效从挖掘得到的大量序列模式中找出有用模式的问题,提出了序列模式有用性度量指标,用以评估序列模式的有用性,在此基础上,提出了一种基于HMM的高效用序列模式挖掘算法,用于挖掘簇集中的有用模式序列。接着结合上述两个算法,提出了基于HMM的两阶段序列挖掘算法,通过聚类和挖掘两阶段最终获取有用的序列模式集。最后基于HMM两阶段序列挖掘算法在云平台用户性能故障行为分析中进行了系统应用实现,有效解决了云平台性能故障源定位和故障行为预测问题。

其他文献

心肌梗死伴发抑郁、焦虑症状的临床治疗

目的　验证健康教育加帕罗西汀对心肌梗死(Myocardial infarction,MI)患者伴发抑郁、焦虑症状的治疗作用。方法　采用焦虑自评量表(SAS)、抑郁自评量表(SDS),选取伴焦虑、抑

期刊

心肌梗死抑郁焦虑帕罗西汀

绿色建筑概论与实例介绍

文章精选了3个优秀绿色建筑素例进行详细介绍,通过实景照片展示了绿色建筑理念、技术与建筑设计的融合,并且提出了对绿色建筑的思考。

期刊

绿色建筑理念实例

汽车制造企业零部件入厂物流探析——基于上汽通用五菱汽车股份有限公司入厂物流

文章从上汽通用五菱汽车股份有限公司产销订货、仓储供货、厂内配送等零部件入厂物流环节中存在的问题入手,探讨解决问题的相关物流管理策略,并指出采取实现订单生产、单件订

期刊

单件订购循环取货第三方物流

河北省易县孔各庄金矿矿床地质特征

阐述了河北易县孔各庄金矿区域成矿的背景,从矿区地层、构造特征介绍了矿区地质特征,详细阐述了孔各庄金矿床的矿床地质特征,对今后华北地区沉积型金矿的寻找具有重要意义。

期刊

矿床地质特征断层立脉矿物特征

都兰太阳能发电建设项目技术经济可行性研究

能源是国民经济发展的基本动力,面对严峻的能源形势和人类生存环境变化的(气候变暖)压力,世界各国都把开发利用可持续的清洁能源作为未来能源发展的战略重点。太阳能以资源丰

学位

太阳能发电建设项目可行性研究

隋唐五代界画考

隋唐是界画极度发展时期,五代是界画日臻成熟时期,没有隋唐五代发展成熟的基础就不会有两宋时期界画的鼎盛乃至巅峰状态的出现。本文对隋唐五代时期的界画画迹、界画家及其代

期刊

隋唐五代界画界画家风格特征

阻燃剂发展新趋势

<正>瑞士联邦材料测试与开发研究所(EMPA,Swiss FederalLaboratories for Materials Science and Technology),在瑞士苏黎世市郊的杜本道夫(Dubendorf)小镇,组织召开了主题为

期刊

阻燃剂火灾烟气材料测试发展新趋势

鲍玛序列各段的不同成因解释

关于浊流沉积垂向上的结构构造特征的鲍玛序列(1962)已为大多数学者所接受,认为这是鉴别经典浊积岩的标准层序.

期刊

鲍玛序列多解性沉积物重力流浊流沉积重力流沉积深水牵引流沉积半深海沉积

《后殖民食物与爱情》

<正>自九七香港回归迄今,已然十六个年头。出生于1949年的广东,生长于香港的文学家也斯(原名梁秉钧),于此期间曾不止一次跟朋友提过想"好好写写香港"。这一心愿,经他十年来陆

期刊

后殖民《后殖民食物与爱情》

探析新时期凉山彝族社会分层现状及特征

本文采用的是＂层化论＂社会分层理论。根据对凉山彝族不同地区的典型调查、问卷调查、个案分析等经验资料和相关统计得出以职业分类为基础,以组织资源、经济资源和文化资源的占

期刊

社会分层新时期彝族

序列挖掘算法研究及其在用户行为分析中的应用

与本文相关的学术论文