海量客运数据中的频繁旅行模式发现算法研究与实现

被引量 : 1次 | 上传用户:rigebi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的进步,信息储存的规模与日俱增。这样,对积累的海量旅客旅行数据进行挖掘和分析,以期发现旅客旅行的某些行为习惯成为可能。而在数据挖掘领域,对旅行数据进行频繁模式挖掘,正好能发现隐藏在数据之下的旅客旅行行为规律。由于最大频繁项集具有的良好特性,本文着重在海量旅客旅行数据中进行最大频繁项集发现算法研究和实现。论文的主要工作如下:首先,本文对各种经典频繁模式发现算法诸如Apriori, FP-growth, FPmax*等进行了相关论述,举例说明了算法的实现过程,研究了算法的流程,并讨论了算法的优越性和局限性。然后,本文分析了海量客运数据集的一些特点,发现海量旅行数据具有高度稀疏,项的基数巨大,较短项集较短模式,需要挖掘支持度计数很低时的频繁模式等特点。针对其具有的特点,本文开展了一些创新性的工作如下:第一,提出了一种适合于对旅客旅行记录进行频繁项集挖掘的复合项集结构,复合结构中各成员具有各自不同的粒度,等级和逻辑概念,但物理实现上同构。还提出了一种便于在社区层次上发现旅客群频繁模式的频繁模式定义。第二,重点介绍了基于事务的数据划分策略TDP,提出和实现了基于事务数据划分的频繁模式发现算法TDPFP,从理论上证明了TDPFP算法具有的一些良好性质:即应用TDPFP进行数据划分,各子数据集的子结果集只需在直接合并后做少量的冗余检测,无需做大量的超集和子集检测比对工作。从对海量旅行数据进行的试验和分析可以看出,TDPFP具有比较好的时空特性。最后,对TDPFP算法进行了改进,提出和实现了基于TDPFP的频繁模式发现增量更新算法TDPIU,对增量海量旅行数据进行的试验和分析表明,TDPIU能够以较高的效率解决对数据集的增量挖掘问题。
其他文献
我国的电力体制改革使得电力企业的生存压力日渐增大,并且随着市场经济进入电力行业也导致电力行业的经营方式与服务措施发生的变化。对于当前的电力企业来说,实施营销管理创
在斜拉桥桥梁施工控制中,温度的影响是不可忽视的。尤其是对大跨度桥梁,温度变化直接影响到结构的变形和内力。随着温度的改变,斜拉桥的斜拉索将会伸长或缩短,继而对主梁的标
企业持有一定的库存不仅可以从时间、地点、数量和空间四个方面缓冲生产或销售中的不确定性,还可以帮助企业达到生产上的规模经济效应,降低企业的生产成本,提高企业的经济效
应用有限元法对腹板中心开圆孔钢梁的性能和极限承载力进行了研究,并用其它学者所做的试验加以验证。由有限元计算所得的极限荷载、破坏特征以及荷载-变形关系与试验结果比较
作为广告业领导者群体,4A公司策划的品牌传播和整合营销案例代表国际最先进的行业水平,同时,4A公司本身由于对整合品牌传播理论的理解不同,也选择了不同的发展道路。那么,广
目的探讨结核菌素纯蛋白衍生物皮肤试验(PPD试验)、结明三项(TB-CHECK试验、TB-DOT试验、TB-Ab试验)联合6kD早期分泌抗原诱导的γ干扰素释放反应(ESAT-6检测)在菌阴肺结核诊
闲笔理论作为中国古典叙事理论,在阐释中外叙事性文学作品上具有极强的有效性。用闲笔理论解读影片《为奴十二年》,其闲笔艺术体现为:次要人物、故事作为闲笔扩展叙事内容,自
目的 研究红蓝光交替照射联合药物治疗痤疮的临床疗效。方法 74例痤疮患者,根据随机数字表法分为对照组和综合疗法组,各37例。对照组采用过氧苯甲酰凝胶和克林霉素甲硝唑治疗
在行业市场竞争日益激烈的大背景下,企业为了获得更多的经济效益和社会价值,要积极开展内部财务管理控制工作,但是,由于缺少细致且全面的管理体系,导致实际的管理工作中存在
口感极佳的库尔勒香梨是新疆最具特色的水果之一,但由于受各种主客观因素的影响,香梨果品质量下降。本文着重分析了库尔勒香梨果品质量存在的问题和影响因素,并提出了相应的