商务智能应用中数据挖掘KNN算法的改进与高性能程序的实现

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:ppt20041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的时代是信息化的时代,随着计算机和网络的迅速发展,在日常生活中会产生越来越多的数据。人们在享受信息化网络系统带来便利的同时,也遗憾有非常多的信息被淹没在了数据之中。如何整理和管理这些宝贵的数据,怎么才能更好更有效的使用这些数据,成为一个迫切而重要的问题。数据挖掘无疑是针对这个问题而产生的一门非常有实际应用价值的学科。研究数据挖掘技术,可以更好的组织管理信息,让数据更好的服务人类,而不是随着时间付之东流。KNN算法也就是K近邻算法,是由Cover和Hart于1968年提出的一种数据挖掘方法。这种方法非常容易理解,在之后也得到了更深入的研究和应用。它也是非参数算法中一个重要的方法。KNN,K近邻算法是最近邻的扩展。其中K值越大那么贝叶斯错误率就越低,当然运算产生的开销也是随着增大的。本论文就是通过改进的KNN算法,使得基于KNN算法的应用不仅更具有针对性和有效性。而且还可以缩短开销提升可行性。CUDA编程模型,是基于GPU的编程模型。这种模型无疑针对KNN算法这种大规模运算更加有效。由于其编程特点具有绝对的并行特征。那么在运算过程中,这种基于CUDA的改进可以大大的提高GPU的运算效率。KNN算法通过计算样本个体之间的距离或者相似度来寻找与每个样本个体最相近的K个个体,在这个过程中需要完成一次样本个体的两两比较,所以算法的时间复杂度,跟样本的个数直接相关。K最近邻算法通常情况下是用于分类的,这只是对K近邻算法用途的本质说明。从实际来看,K近邻算法可以应用的地方还有很多,比如系统推荐等等。简单的讲,就是挖掘出客户喜欢的相同商品,来进行相似物品的推荐。另外区分客户群体,从而使我们更好的为客户服务。
其他文献
伴随着数字多媒体技术和设备的快速普及,使得人们获取和制作视频的方式更加容易,同时这些视频数据可以很容易的被人们通过视频编辑软件进行任意修改,使得互联网中充斥着各种
嵌入式系统开发、生产过程中涉及到的一个很重要的问题就是“镜像文件烧写”,镜像文件的烧写方案直接关系到嵌入式设备的开发、生产效率。目前国内很多嵌入式设备厂商的生产
情感分析是对文本中的观点、情感和主观性的计算处理过程。基于特征的用户评论情感分析是情感分析领域近几年出现的一个研究热点,它主要面向产品的用户评论,进行产品特征提取
近年来,网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务,同时大量的作者同名现象降低了检索的准确性,因此作者消歧是该类知识库亟待解决的一个问题。
运动目标检测是计算机视觉领域的一个研究热点运动目标检测是将视频画面中的前景目标提取出来,得到前景目标的相关信息,是目标跟踪和识别安全监控等视频处理的基础,检测结果直接
蛋白质是构成生物体的重要物质基础,生命现象主要是通过蛋白质的结构和功能来实现的。掌握蛋白质的各种属性对于理解蛋白质功能,了解生物体内各种生化反应、基因表达,以及具有针
Ad Hoc网络是一种由许多带有无线收发装置的移动主机组成的多跳自治系统,它不需要预先布设网络基础设施就能快速组网。近年来随着无线通讯技术的发展和个人便携设备的普及,人
文本分类是数据挖掘中一个常见的研究热点方向,K-最近邻分类方法是一种用实例解决问题的分类方法,在向量空间模型下,是一种比较好的文本分类方法。其主要步骤有:文本预处理,特征选
目前增强现实技术在移动端的应用研究还处在初始阶段,与PC端的实现相比,移动端的计算能力较弱,如何利用移动设备中有限的资源实现增强现实系统高效的运行,是目前急需解决的问
互联网技术的蓬勃发展带来的是网络媒体的应运而生,微博凭借其信息发布的实时性、平台多样性和内容的草根性,在短短几年之内迅速取代传统媒体,成为人们社交生活中使用最多的