双层减样支持向量机在垃圾标签检测中的应用研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:cx8105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Folksonomy是一种基于Web2.0的新型知识分类方法。Folksonomy由用户、资源、标签三个重要元素组成。具有自由性、共享性和用户性等特点。在实际应用中Folksonomy系统常常受到垃圾信息的侵害。为了解决新领域中的新问题,我们在已有方法的基础上,提出新的方法加以解决。本文借助支持向量机的数学模型构建出针对Folksonomy的大规模垃圾标签检测模型。又在商空间粒度分析理论的启发下,将粒度分析思想引入数据约减领域。提出商空间框架下的大规模SVM数据集约减模型。利用该模型实例化出来的双层减样法对大规模垃圾标签检测模型优化。最终形成基于双层减样支持向量机(BR-SVM)的大规模垃圾标签检测模型。本文取得以下研究成果:   (1)本文借助商空间粒度分析理论,把“粒度”的概念引入约减模型,提出商空间框架下的大规模SVM数据集约减模型。   (2)将提出的“商空间框架下的大规模SVM数据集约减理论模型”具体化后,得到双层减样法。这是本文研究的难点,也是将理论模型实例化的必要环节。该减样法利用“粒度”概念把聚类约减和单点约减有机结合,形成了效果更好的针对支持向量机数据集优化的约减法。   (3)将理论研究的成果运用到Folksonomy标签系统这个新兴领域中,是对本文研究内容的检验。为Folksonomy标签系统设计基于双层减样支持向量机(BR-SVM)的垃圾标签检测模型。模型中还提出了Folksonomy用户建模方法,把用户分类问题转化为文本分类问题。基于BR-SVM的垃圾标签检测模型对于标签系统的垃圾检测效果比现有的同类检测模型效果更好。
其他文献
网络带宽的增加使得互联网上的多媒体应用成为可能,并得到了广大用户的喜爱。但是由于多媒体文件,尤其是视频文件太大,多媒体数据在传输时,文件服务器带宽成为整个系统的瓶颈
信号在水声信道中的传递受多径干扰的影响十分重大。对水声信道影响较大的几个因素是:水声信道参数、传播损失和多普勒频移。尤其在水深较浅的区域,直达声和反射声混合形成复
传统的机器学习的研究中往往倾向于将有标签的数据和无标签的数据分开研究,但是在现实生活中,这两种情况往往是并存的。半监督学习便由此应运而生,在传统应用中往往将半监督
研究表明,我们肉眼所看到的自然界众多图像中,其所传达的情感语义都十分丰富,或清爽,或伤悲,或温暖,或恐惧。基于文本的图像检索系统出现最早,发展也最为成熟,它主要根据某些
文本是信息检索领域中数据的基本表示形式。如何从大量文本数据中分析和提取出有用信息,业已成为数据挖掘一个日益流行而且重要的研究课题。文本数据用向量空间模型表示时,由
学位
目前的统计机器翻译的发展,由于其对大规模平行语料库的依赖,还主要集中在平行语料库相对容易获得的英法、英汉等语言之间。由于获取途径的限制,即使像英语,汉语,法语这些常
为了解决物联网(Internet of Things)的内在矛盾,引入了语义协同(Semantic Collaboration),形成新一代网络--语义物联网(Semantic Web of Things)。但语义协同过程中存在两个
随着Web2.0逐渐走向成熟,网络中出现了大量的用户生成意见文本,意见挖掘因此而成为自然语言处理领域的一个研究热点。作为意见挖掘研究的关键问题之一,情感极性分类的目的是
现如今,为满足营销和消费者偏好分析的需要,商户往往会将交易数据,包括敏感信息PAN(持卡人的银行卡卡号)进行存储,这使商户系统易成为攻击者的目标。此外,虽然创新支付方式的