面向海量商品数据的分布式层次聚类算法设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yilong_hongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于计算机科学与信息技术的进步,企业可以方便的收集并储存大量数据。但收集到的数据仅仅占用了大量的存储空间,无法对企业的价值产生有效的帮助,因此企业开始着手于从数据中挖掘信息。以往的信息挖掘过程由专家分析并解释数据,这种方式随着数据量以及属性的急剧增加而变得越来越困难。所以,如何有效地从巨大数据库中自动的发现知识,更进一步加工转化成企业不可或缺的商业智慧,逐渐成为二十一世纪企业和机构所必须面对的重要课题。在生产实践中,数据的增加速度与数据分析所消耗的大量时间已经形成了越来越突出的矛盾。数据挖掘正是为了解决传统分析方法的问题,针对大规模数据的分析处理而出现的技术。数据挖掘通过将自学习算法应用在大规模数据集上,得到隐藏在数据中难以获取的知识与信息。海关作为国家商品进出口的主要监管单位,是海量进出口数据的生产者和拥有者。随着业务流程信息化建设的深入和完善,海关已经基本实现了较为完整的数据化监管和数字化运营能力。但同时,相对有限的数据分析手段与不断增长的数据和业务复杂度之间的矛盾也日益突出。如何对海量的报关商品进行有效的归类和管理成为海关监管中亟待解决的问题。本论文以海关商品数据分析项目为主线,在MapReduce框架的基础上实现了对商品数据的一系列处理模块,形成了商品数据的分布式聚类系统。主要内容包括商品数据的预处理、TF-IDF计算、倒排索引的构建、相似度矩阵的计算、单连接层次聚类计算等。最后利用层次聚类的结果对海关的商品数据进行了整理,为海关情报分析研判模块提供精确的分组统计依据,在实际应用中产生了效果。
其他文献
针对现有各种双端测距方法所存在的问题而提出了一种新型的采用故障分量的双端测距方法。
【正】 拿破仑有句名言:“我们之所以能够取得胜利,是因为我们比敌人早到5分钟。”抓住影响市场变化的各种因素,做到月晕知风,础润见雨,便可预见未来,比他人“早到5分钟”,在
【正】 高新技术的发展水平已成为衡量一国或地区综合实力和国际地位的重要标志。目前,广州市的科技发展水平有了较大提高,科技进步对工业经济增长的贡献率逐年增大,现已达42
本文介绍了由变频器、可编程控制器(PLC)构成的恒压供水系统的组成及工作原理,运用布尔代数设计了梯形图软件。
国家种质库是全国作物种质资源长期保存与研究中心,于1986年10月在中国农业科学院落成,隶属于中国农业科学院作物科学研究所。该库的总建筑面积为3200m~2,由试验区、种子处理
【正】 0 根据句子是否含有语气成分,《红楼梦》中的选择问句从形式上可以分为不含语气词的选择问句和含有语气词的选择问句两种类型。 1.0 不含语气词的选择问句。根据选择
通讯信息诈骗是影响社会稳定的突出问题。当前通讯信息诈骗防范打击治理工作取得阶段性明显成效,但诈骗手法不断翻新,专业化、智能化、集团化特点给防范打击治理工作带来新问
后现代主义与中国传统文化曾艳兵后现代主义与中国传统文化的关系,通常有两种主要观点:一种认为后现代主义我们中国早就有了,先秦以前的思想家、哲学家对此就有过精确而深刻的论