基于多因子标签相似度的标签聚类算法的研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:yangpin1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是信息技术大爆发的时代,社会化标注系统的出现产生了海量的信息资源,挖掘社会化标注系统中的标签资源,能够提升用户体验。在挖掘标签潜在有用信息过程中,如何对标签分类是一个难题。使用标签聚类算法能够实现社会化标注系统对标签的分类需求。社会化标注系统是开放的系统,但正是由于其开放性,各行各业、各种知识层面的用户都能对资源进行标注,易导致标注的标签存在信息描述不够精确、语义模糊等问题,对资源的分类效果产生较大的负面影响。现阶段标签聚类存在两个问题:(1)现阶段标签相似度方法计算所得标签相似度不够精确;(2)聚类算法本身也存在一些局限性,如K-means随机选取初始簇中心,易导致聚类不稳定、准确率低等问题。为了解决上述问题,本文对标签相似度计算方法和K-means算法进行改进,提出基于多因子标签相似度的标签聚类算法。所做的主要工作如下:(1)提出了多因子标签相似度的计算方法。该方法考虑用户因子和资源因子并融入标签的频度和重要度因子对标签相似度计算方法进行改进,所得标签相似度能够较好的衡量标签之间的相似性;(2)提出了融入密度和距离优选初始簇中心的K-means算法。该算法不断选取距离最远的高密度对象作为初始簇中心,避免了仅从最远距离选取初始簇中心不能解决噪声的问题和仅选取高密度对象作为初始簇中心,易导致局部最优的问题。最后将多因子标签相似度计算方法与融入密度和距离优选初始簇中心的K-means算法结合,实现完整的标签聚类算法。分别对多因子标签相似度计算方法、融入密度和距离优选初始簇中心的K-means算法以及两者融合基于多因子标签相似度的标签聚类算法的有效性进行实验验证。实验表明本文基于多因子所得标签相似度在进行传统K-means聚类时,具有较高Purity、准确率和召回率,能够较好的衡量标签之间的相似度关系。本文融入密度和距离的K-means聚类算法聚类精度更高,具有普适性。两者融合的基于多因子标签相似度的标签聚类算法进行标签聚类,效果最好。
其他文献
近年来,在我国京津冀地区经济发展水平不断提升的同时,一系列问题也随之而来,其中比较突出的如基本公共服务的均等化问题,已经越来越成为制约京津冀地区实现一体化进程的障碍,甚至可能会影响社会的稳定。本文从公共管理学角度对基本公共服务的含义进行探究,依据相关原则,提出了6个一级指标,包括有教育服务、卫生服务、文化服务、信息化服务、基础设施服务、社会保障服务,21个二级指标,如万人普通高校学数、万人床位数、
假冒伪劣是一个全球性的问题,涉及烟草、白酒、化妆品及国计民生各个方面,给消费者和正规生产厂家都带来了极大的损失,也严重影响了国家和地区的形象。国家相关部门、生产企
在现今网络高速发展的时代,网络空间数据与日俱增。这些大量的数据包含了现实生活中人们的隐私和信息。通过网络空间数据挖掘方法对这些数据进行信息提取,同时挖掘出数据所包
互联网发展到21世纪,媒体形式变得多种多样,即时通讯,高清音视频等各种流媒体的高速发展,导致对网络的要求越来越高。类似于4K视频之类的流媒体使得资源提供端压力越来越大,
合格的语文老师,一定要有宽阔的理论视野和执着的实践追求。从教几年,我深切感受到语文教育中不合理的现象:急于求成、重教书轻育人、与生活脱节、评价机制单一等;忧心于自己
在纺织行业中,查询某种布料花案图片的工作通常是工作人员凭借个人经验查找完成的。这种方法的查询速度和查询准确率都不稳定,无法满足布料贸易公司准确地查找图片的需求。市
随着我国交通建设的不断推进,公路隧道建设已进入攻坚阶段,高海拔特长隧道的建设数量也不断增多。隧道施工通风影响隧道建设周期,事关施工人员的身心健康。高海拔特长隧道区别于普通公路隧道,隧道施工通风问题不断显现,面临供风不足,通风距离长,风管漏风严重,风机布设不易,占用隧道施工空间大等问题,如何保障施工期安全的通风设计,对推进公路隧道建设具有积极的现实意义。因此,本文依托新疆东天山特长公路隧道,开展一种
学位
在金融领域,嵌入式产品越来越复杂同时应用越来越广泛,但嵌入式产品稳定性一直没有得到有效地解决,所以会在正常的金融交易中存在安全隐患,这往往会给人们在日常金融交易带来
近年来,网络社会媒体中分享的文本、图像、视频等信息正在以不可估量的速度增加。尤其是视频分享网站数量的增多,使得用户能够更加方便的上传、管理和分享视频内容。视频分享
在当前司法改革的大背景下,刑事审判任务形势依然严峻,自刑法修正案(八)、(九)施行以来,轻微刑事案件比例不断上升,最典型的危险驾驶案件在刑事案件中所占比例不断攀升。在这