基于用户兴趣的混合数据聚类算法研究

被引量 : 2次 | 上传用户:mingming7978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,在各个领域都产生了大量的数据,特别是在电子商务领域中产生了大规模混合属性的用户信息数据。如何在这些大规模的混合属性数据中挖掘出有价值的知识和规律,成为数据挖掘领域的研究的热点之一。而聚类是数据挖掘中一种重要的技术,通过寻找数据间的相似性对数据进行分类,发现其中隐含有用的信息和知识。当今用户角色在信息时代的作用有了很大提升,因此在海量的数据信息中找到和用户相关的、用户感兴趣的信息是非常具有挑战性的任务。本文在研究混合数据聚类时,将用户兴趣信息引入数据处理中,能够使得数据的聚类结果有助于信息的推荐与用户的行为决策。本文的主要内容包括以下三个方面:(1)针对信息时代中用户角色越来越重要的情形,在聚类分析中,引入用户兴趣信息,基于用户兴趣域和“数据-用户兴趣域”隶属度的概念,提出了基于用户兴趣混合数据聚类标签UIMCL算法。该算法能有效的利用小规模的用户兴趣信息对大规模的混合数据进行聚类标签处理。(2)在对混合数据聚类处理中,为了克服以往数据标签算法只能为拟标记数据指派一个类标签的局限性,通过调节UIMCL算法中的聚类标签控制阀值,能够实现对数据样本的多标签处理。通过多标签聚类得到的结果可应用于电子商务的推荐服务中和提高用户的行为决策。(3)在混合数据聚类距离度量中,引入用户兴趣信息,修改距离的度量计算方式。在不同的聚类算法中引入兴趣距离度量,能够与原算法取得一样的聚类效果。而且基于用户兴趣的聚类距离度量能够实现数据的降维,同时聚类结果更符合用户兴趣的关注。针对混合数据的聚类处理,本文的研究成果为如何展开有效的利用用户兴趣信息对数据进行分析与处理提供了参考,进一步扩展了聚类分析技术在实际领域的应用前景。
其他文献
当前有关免费师范生政策研究的实证研究主要有质化研究中的话语分析方法、历史研究方法和量化研究方法中的问卷调查方法。从话语分析角度,研究者提出了免费师范生和公费师范
伊朗电影《纳德和西敏:一次别离》以冷静客观的态度,充满关切的镜头语言展现了当代伊朗人的生存状态,拍摄手法与电影风格紧密结合,电影里所揭示的信仰与现世的双重挣扎,敏锐
弥散性血管内凝血(disseminated vascular coagulopathy,DIC)是产科严重并发症,是由某些致病因素引起微循环内广泛性微血栓形成,消耗性凝血,继发纤维蛋白溶解、溶血、渗血、广泛
你希望部属积极主动,而非等你发号施令;你希望他们能够设身处地,从你的角度为公司着想。而实际情况往往与你的希望相反,本文分析了员工不积极主动的五个可能原因,并提出了解
长期以来,CEO等高级管理人员的更换是国外证券市场和管理学研究中的一项重要内容,因为它是股东或者董事会做出的最重要决策之一,并被作为约束经理人行为的重要机制。本研究根据C
<正>作为商贸公司的老总,高博达可以说是个成功的商人;作为锡壶收藏家,他在这个领域里无疑已是个高手。当我心怀忐忑,不知他这貌似高高在上的双重身份会不会在面对我的采访时
期刊
目的:探讨65岁以上老年女性原发性乳腺癌患者的临床病理特点、生存情况、影响预后的因素以及保乳治疗在老年患者中的疗效。方法:回顾性分析天津医科大学附属肿瘤医院2003年1月
本文以废玻璃粉为基料,通过创新性引入沸石作为造孔剂,并添加助熔剂和稳泡剂制备泡沫玻璃,借助DTA-TG、XRD、FE-SEM、XRF、高温显微镜、万能试验机和导热系数测试仪等测试手段系
情志致病是中医学理论体系的重要内容之一。由于社会的发展,人们生活方式的改变,情志引起的疾病正呈现上升趋势,情志因素在病因学中的地位显得越发重要。本文主要探讨情志的