基于多特征信息融合的WEB广告聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhq198709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的快速发展,Web广告已成为网络服务提供商盈利的重要途径,同时也是许多传统行业宣传自身品牌和产品的有效渠道。海量Web广告数据中隐藏着高价值的信息和知识,因此如何对其进行有效的挖掘已经成为许多互联网应用的关键问题。在Web广告数据挖掘中,聚类分析是一项重要的基础技术,不仅可以用于分析竞争对手,并且能够辅助政府以及评估机构对经济发展状况进行评估和预测。Web广告数据包含多种特征,但每一种特征都不能全面描述Web广告对象。通过多种特征的融合,将能够全面描述Web广告对象。因此,本课题研究了基于多特征信息融合的Web广告聚类方法。主要完成以下工作:(1)分析Web广告特点,搜集、构建相关数据集。研究了面向Web广告数据的特征提取方法,实现了一种基于模糊匹配的文本特征提取方法和四种图像特征提取方法;(2)Web广告数据的特征空间有高维稀疏的特点,而决定两个簇分离的往往是极少数特征。为了区分这些极少数特征的重要程度,本文在EW-kmeans的基础上改进了目标函数,综合考虑了簇间距离和簇内距离对聚类效果的影响,提出了基于鉴别子空间的三阶张量加权k-means方法(Dkmeans),并给出相关理论证明。实验结果表明:与最新的相关聚类算法相比,Dkmeans算法在6个公开数据集上均取得了更好的聚类效果;(3)针对Web广告中的不同特征,搭配不同组合进行融合实验。通过实验,发现不同组合的特征融合,对Web广告聚类效果均有不同程度的提高。其中,组合全部特征融合,可以得到最好的聚类效果,从而验证了多特征融合可以提高Web广告的聚类效果。
其他文献
随着计算机网络的日益普及和通信技术、计算机技术的发展,企业网中的应用服务越来越多。但是不同的应用服务各自有一套身份认证机制,用户要访问多个应用服务就必须逐一通过这
不论是在计算机视觉领域还是在人机交互领域,视频序列中的目标追踪都是一项基础的工作。目标追踪技术可以用于许多领域。比如车辆导航、视频监控、智能机器人等。这些应用能
印染、陶瓷、纺织、丝绸、地毯以及丝网印刷等领域是我国重要的传统产业,目前在产品市场上面临着激烈的国际竞争,产品市场需求特点已由少品种、大批量转变为多品种、少批量的生
随着网络技术的飞速发展,计算机和网络已经渗透到社会生活的各个方面,随之而来的网络安全问题也越来越引起人们的关注和重视。基于免疫原理的入侵检测技术研究已成为继神经网
成本管理是计算机软件项目管理中的一个重要环节,成本估算是进行成本管理的前提和依据。未进行成本估算和效益分析就进行软件项目开发,往往会导致项目失控。目前,计算机软件
随着计算机软、硬件的不断发展和计算机网络使用范围的不断扩大,Internet上存在着大量的剩余资源,如存储资源、计算资源和数据资源等等。P2P网络技术为合理、高效地利用这些
本文提出了一种互联网信息定向采集方法。通过对互联网的定向搜索、反馈和预测排队机制,对网页内容的进行分析处理(分词、建立VSM向量、计算网页内容相关度),对页面上的超链接
现代音频处理技术的成熟和互联网的普及使得音频产品很容易被人恶意篡改,并在网上四处传播,因此对音频产品的认证也变得日益重要。音频数据的语义可以通过简单地重排或去掉几个
随着计算机网络规模的日益膨胀和复杂度的日益增加,构建一个具有自律特征的网络资源管理系统,不断提高网络资源管理的灵活性和易管理性,就显得更加迫切。近年来,基于策略的网
目前,系列化零件是机械制造业的最主要的设计工具之一。但是一种高效,方便,智能化,集成化与协同化的系列化零件系统一直是业界的一个难题。系列化零件系统的目标是节省企业设计人员的设计时间,提高设计人员的效率,从而给整个企业带来良好的收益。现在许多的机械零件还没有形成系列化,很多都是根据具体的国标进行自行设计,造成企业制造成本增加。传统的CAD软件都是通用化的软件,并没有针对每个行业都制定一套专门的CAD