改进的聚类算法在电子商务中的应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户:hahaho520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,带给了人们很多便捷,现在的人们足不出户就可以在网上通过移动设备购买自己心仪的商品。但是,带给人们便捷的同时,也使我们处在了一个信息漫天飞的时代,我们想要从数据中找到有价值的数据真是难上加难。人们通常会使用聚类分析去对数据进行划分,这样很大程度地缩短了我们搜索信息的时间,K-means算法就是其中比较常用的一种,但是K-means算法在处理一些特殊数据的时候还时常会暴露出其缺点。鉴于k-means算法存在的一些缺点,本文将从三个方面对k-means算法进行改进。(1)传统的k-means算法使用欧式距离去计算数据之间的差异性,(2)k-means算法中k值的模糊性和主观性,(3)k-means算法计算聚类中心不会去衡量类与类之间的联系,会被噪声数据影响且性能还不是很好。本文将采用改进的k-means算法去对数据集进行分类,改进后的算法将使用变异系数法去确定每个坐标的权重,以及通过人们比较认同的方式,对数据的坐标进行加权去验证上述变异系数法应用在计算数据之间距离的可行性。通过函数关系去确定k值。通过计算类之间的距离,再去确定哪些类放在一起进行下一次聚类中心的计算。使用变异系数法去计算数据之间的距离,能更加体现人们对于不同商品的侧重点,变异系数会通过科学的计算去计算出不同商品的每个变量的权重,从而使商品在聚类上达到最优的结果。通过函数关系去确认K值,这个函数是由类成员到各自中心点的距离和以及每个聚类中心到所有类成员中心(计算所有类成员的均值作为类成员中心)的距离和组成,当这个函数的值取到最小值时即:聚类最为合理,那么这个时候的k值就是理想的k值。优化寻找中心点的性能,主要是考虑了类与类之间可能存在的差异性比较大,那么对于差异性比较大的类不应该放在一起进行下一次中心点的计算,因为,差异性比较大,它们的中心点只会在它们类本身变化,而且这样做的好处就是,很大程度地减少了噪声数据对于正常数据的影响。
其他文献
在宏观经济下行、信贷风险压力加大的背景下,江苏海门农商行从微观角度入手,找准威胁资产质量的关键点,建立风险识别、预警、化解机制,不断提高信贷管理水平。$$    聚焦关键
报纸
期刊
在当前整个文化交流与传递不断成熟的背景下,我们应该充分认识到整个茶文化典籍翻译活动所具有的综合特点和内涵,探索能够充分诠释和传递我国本土文化的翻译体系,从而有效传
目的 分析间变型星形细胞瘤的螺旋CT和磁共振影像表现,以提高对本病的认识.方法 回顾性分析颅内间变性星形细胞瘤螺旋CT和磁共振影像表现,使用GE64排螺旋CT和GE 3.0T磁共振,
本研究引进Clasen和Brown的同龄人压力量表(PPI),首次在国内加以修订;根据来自北京大学189名被试的样本,修订形成了同龄人压力量表中国版,共包括12个维度,这一形式与原本量表
据科学网2015年3月21日报道,中国科学院新疆生态与地理研究所干旱区生物地理与生物资源重点实验室闻志彬研究团队发现,藜科猪毛菜属中松叶猪毛菜的叶片解剖结构具有类似C3-Sy
在养猪生产中,初情期的适时启动也标志着母猪进入正常的繁殖周期,而初情启动也受到生产管理和营养等方面因素的共同影响。本文综述了保障后备母猪适时启动初情的要点,以期能
月经不调主要指月经先期、月经后期、月经先后不定期、月经过少、月经过多等[1]。阳虚体质是形成许多疾病的体质基础,是在先天遗传和后天获得的基础上,由于阳气不足、失于温
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield