WEB图文广告识别关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:happyfen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展,促进了互联网广告业的发展,网络广告占据了整个网络,如今大多数网站都或多或少包含某种广告。广告虽然可以为网站或企业带来收益,但是也给网络用户获取有用信息造成了干扰,因此,研究如何识别网络中的广告具有十分重要的意义。对于目前广告商使用较多的图片广告和文本广告,已有的图片广告识别大多通过规则匹配来完成,需要经常更新规则,实时检测的效率还需提高,基于多维特征的识别方法,特征提取较为复杂;而对于文本广告的识别忽略了短文本的数据稀疏性、较少考虑文本的语义信息,导致识别率不高。为了解决当前技术存在的问题,本文对图片广告的URL和文本广告的语义信息进行研究。首先,针对规则匹配方法实时检测效率不高,基于多维特征提取复杂的问题,提出了一种面向实时流量的WEB图片广告识别方法。通过研究图片广告的链接特征,结合机器学习的SVM分类算法,提出了基于图片广告链接特征的SVM识别模型。通过与基于规则匹配的Quero模型、基于DOM结构的多特征识别方法和基于图片内容的识别方法进行对比识别结果的准确率、精确度、召回率和F值,验证了本文提出的仅使用URL地址的单一维度特征,可以在不降低准确率的同时,提高实时检测的效率。其次,针对现有的文本广告识别方法忽略了数据的稀疏性,较少考虑语义信息,识别准确率有待提高的问题,提出了一种面向短文本内容的文本广告识别方法。通过研究文本的语义信息,结合卷积神经网络,提出了基于语义的卷积神经网络识别模型。通过与传统的TD-IDF识别方法和基于主题模型的识别方法对比准确率、精确度、召回率、F值,验证了所提出的使用文本的语义可以提高识别结果的准确率,同时模型的整体性能也有所提高。
其他文献
随着人们日常生活水平的提升与人工智能技术的迅速发展,越来越多的智能家居系统、人工智能机器人等高科技产品进入人们的生活中。手势交互作为指令下达最为简洁、便利的人机交互方式之一,一直是计算机领域的研究热点。相较于穿戴比较繁琐且设备价格高昂的穿戴式手势识别技术,基于视频信息的动态手势识别技术则更为大众所接受。近年来,深度神经网络以强大的特征提取能力以及模型泛化能力在手势识别领域取得了较好的成绩。本文深入
在有机光伏材料中,单线态分裂是一种在特定有机分子中发生的激发倍增现象,即分子吸收一个光子可以产生两个电子空穴对。作为一种多激子效应,单线态分裂可以有效地避免能量损失,提高太阳能电池的光电转换效率。近年来,随着超短激光脉冲和时间分辨技术的出现和发展,科研工作者们对单线态分裂的研究不断深入,然而其物理实质还有待进一步揭示。红荧烯作为常见的单线态分裂材料,其单晶、多晶、薄膜的单线态分裂研究层出不穷,但是
随着社会的发展和科技的进步,数字音频已经成为人们日常生活主流的信息载体。由于Cool Edit、Cakewalk以及Audition CS6等音频处理软件的广泛应用,人们肆意伪造或者篡改数字音频的行为也日渐增多。随着数字音频面临日益严重的信任危机,近年来国内外涌现出很多数字音频取证技术的研究。数字音频取证技术是通过解决数字音频的真实性、完整性以及原始性等安全问题,以达到保障数字音频安全性的目的。截
现阶段5G技术的发展日新月异,5G商用未来可期,面对当下5G三大业务场景的广大需求,中国移动创新提出SPN(Slicing Packet Network,切片分组网)网络架构应对5G全新应用场景需求,各个通信设备制造商遵循移动提出的SPN技术标准,致力于研发SPN设备,满足移动SPN设备测试规范的要求。SPN采用分层网络模型,分为切片分组层(Slicing Packet Layer,SPL)、切分
三维石墨烯虽然具有快速的充电速率、长的循环寿命、丰富的孔径结构和高的电导率等优异性质,但由于其比电容较低,较大程度的制约了其在超级电容器中的应用。将聚苯胺(PANI)与三维石墨烯复合可以提高其比电容,但由于聚苯胺与石墨烯的界面接合较弱,这会影响该类复合电极材料的电化学性能。针对这一问题,本文提出采用功能化修饰方法,用氨基(-NH2)、磺酸基(-SO3H)对三维石墨烯进行表面功能化修饰,调控聚苯胺与
近年来,随着智能手机与平板电脑等移动设备的普及,运行在移动设备上的应用程序(app)的数量也急剧增加。目前,移动设备上的移动应用程序市场内已经拥有数百万的移动应用。如此规模的移动应用的维护对于开发人员来说是一个巨大的挑战。开发人员通常需要通过软件维护方法来保证移动应用程序的质量,从而提高用户的满意度。他们通常会提交问题报告来描述在使用应用程序的过程中出现的缺陷,功能请求和其他更改。标签(例如,缺陷
随着旋转机械大量应用于电力、石化冶金以及航空航天等工业领域,其设备安全问题由于关乎人民群众的生命财产安全,逐渐成为国内外学者关注的焦点,其中由于转子不平衡以及不平衡引发的其他故障最为常见,约占总故障的70%。现如今随着工业4.0智能化工业的高速发展,基于大量工业数据的故障诊断技术层出不穷,以数据驱动的智能故障诊断方法以其高效快速的特点逐渐成为一颗冉冉升起的新星。本文以转子不平衡故障为研究对象,采用
随着存储数据的剧增,系统中的数据失效情况频发。现有的容错手段主要包括副本冗余和纠删码两种,纠删码因其具有相较副本存储开销小的优点成为存储系统中重要的容错策略,数据重构是纠删码解决问题的重点,其针对重构技术的研究主要从编码方案和重构过程两个方面展开。纠删码中的分组码通过将数据块分组降低数据重构时读取数据量,编码结构简单,但现有分组码各分组之间由于关联性差会导致容错率降低等问题,且目前关于分组码在重构
机器人自主定位和导航是机器人领域的一个重要研究方向。机器人定位方式又可分为局部定位(如基于马尔科夫链的SLAM(Simultaneous Localization And Mapping)里程计的相对位置的确定)和全局定位(如有额外的地图辅助的绝对位置确定)。局部定位方式因其定位原理会造成定位误差累积;而地图包含环境中目标的精确位置信息,能够提供可靠的绝对位置。地图现有形式中,栅格地图、拓扑地图等
钇稳定氧化锆(Yttria stabilized zirconia,YSZ)基固体电解质传感器因具备抗水蒸气干扰能力强、选择性好、响应快、结构简单、寿命长等优点,近年来成为挥发性有机物(Volatile Organic Compounds,VOCs)气体检测方面的研究热点。但是从国内外的研究中可以发现,基于氧化锆电化学气体传感器对甲醛气体的灵敏度较低,距实现室内痕量甲醛气体的有效检测还存在一定的距