序列挖掘算法研究及其在用户行为分析中的应用

被引量 : 11次 | 上传用户:wang____jiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代,随着生活中越来越多的数据和信息不断涌现,数据挖掘技术应运而生。序列挖掘作为数据挖掘技术中的一种重要方法,旨在从庞大的序列数据中发现隐藏的潜在有用模式及信息,它在信息网络、生物医学、金融行业、自然灾害预测等方面都有重要的作用。随着应用的发展,数据集的规模越来越大。现有序列挖掘算法挖掘效率较低,挖掘得到的序列模式过多,用户很难直接从中找出有用的序列模式,往往需要进行多次挖掘和筛选,严重影响了挖掘的价值。如何从海量序列数据中挖掘得到有用的关键模式信息成为序列挖掘领域面临的一个重要问题。针对这一问题,本文提出了种基于隐马尔可夫模型的两阶段序列挖掘算法:(1)使用基于K-means的序列预聚类算法,对序列数据进行预聚类处理。(2)使用基于HMM的高效用序列模式挖掘算法,对聚类得到的各簇集进行高效用模式挖掘。通过不同数据集实验,证明了算法在挖掘有用序列模式方面和传统序列模式挖掘算法相比具有更好的效果。针对用户行为分析领域——IaaS云平台用户性能故障行为分析方面,基于上述算法进行了应用和实现。本文首先深入研究了序列模式挖掘典型算法,对比分析了不同算法各自的优劣和适用场景。然后针对序列相似性度量的特殊性,提出了基于序列编辑距离的相似性度量方法,在此基础上,提出了一种基于K-means的序列预聚类算法,用于序列挖掘前数据的预处理分类。其次针对无法有效从挖掘得到的大量序列模式中找出有用模式的问题,提出了序列模式有用性度量指标,用以评估序列模式的有用性,在此基础上,提出了一种基于HMM的高效用序列模式挖掘算法,用于挖掘簇集中的有用模式序列。接着结合上述两个算法,提出了基于HMM的两阶段序列挖掘算法,通过聚类和挖掘两阶段最终获取有用的序列模式集。最后基于HMM两阶段序列挖掘算法在云平台用户性能故障行为分析中进行了系统应用实现,有效解决了云平台性能故障源定位和故障行为预测问题。
其他文献
目的 验证健康教育加帕罗西汀对心肌梗死(Myocardial infarction,MI)患者伴发抑郁、焦虑症状的治疗作用。方法 采用焦虑自评量表(SAS)、抑郁自评量表(SDS),选取伴焦虑、抑
文章精选了3个优秀绿色建筑素例进行详细介绍,通过实景照片展示了绿色建筑理念、技术与建筑设计的融合,并且提出了对绿色建筑的思考。
文章从上汽通用五菱汽车股份有限公司产销订货、仓储供货、厂内配送等零部件入厂物流环节中存在的问题入手,探讨解决问题的相关物流管理策略,并指出采取实现订单生产、单件订
阐述了河北易县孔各庄金矿区域成矿的背景,从矿区地层、构造特征介绍了矿区地质特征,详细阐述了孔各庄金矿床的矿床地质特征,对今后华北地区沉积型金矿的寻找具有重要意义。
能源是国民经济发展的基本动力,面对严峻的能源形势和人类生存环境变化的(气候变暖)压力,世界各国都把开发利用可持续的清洁能源作为未来能源发展的战略重点。太阳能以资源丰
隋唐是界画极度发展时期,五代是界画日臻成熟时期,没有隋唐五代发展成熟的基础就不会有两宋时期界画的鼎盛乃至巅峰状态的出现。本文对隋唐五代时期的界画画迹、界画家及其代
<正>瑞士联邦材料测试与开发研究所(EMPA,Swiss FederalLaboratories for Materials Science and Technology),在瑞士苏黎世市郊的杜本道夫(Dubendorf)小镇,组织召开了主题为
关于浊流沉积垂向上的结构构造特征的鲍玛序列(1962)已为大多数学者所接受,认为这是鉴别经典浊积岩的标准层序.
<正>自九七香港回归迄今,已然十六个年头。出生于1949年的广东,生长于香港的文学家也斯(原名梁秉钧),于此期间曾不止一次跟朋友提过想"好好写写香港"。这一心愿,经他十年来陆
本文采用的是"层化论"社会分层理论。根据对凉山彝族不同地区的典型调查、问卷调查、个案分析等经验资料和相关统计得出以职业分类为基础,以组织资源、经济资源和文化资源的占