数据管理平台—内容识别模块的设计与实现

被引量 : 4次 | 上传用户:oursoftware
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能设备的飞速发展,越来越多的人通过各种智能设备成为互联网中的-员,这期间产生的海量用户数据若能够有效的利用起来,将会产生巨大的价值。另一方面,随着分布式集群的成本的降低及分布式算法的成熟,对大批量数据的分析也越来越方便、高效。本文所述项目即是分布式集群及分布式算法在广告投放行业的应用。本论文所涉及的项目旨在通过分布式集群及分布式算法对海量用户上网数据进行分析,找到最有可能促成对需要投放广告的产品的购买行为的人群,以实现对广告行业广告投放方式的改革——由无差别盲目投放转变为精确到某个人的投放。本人参与了如下工作:爬虫项目的开发,内容识别系统架构及识别规则制定,内容识别系统的开发及测试,广告投放系统日志分析。本文所述项目依托于Hadoop集群,通过Java及Python编写的MapReduce程序,根据存储于关系数据库(MySQL)的通过爬虫(Scrapy)爬取的内容识别(域名、商品、应用、搜索关键字、CookieId、终端类型、User Agent、Token等)规则,对存储于NoSQL数据库(Hive)中的海量用户上网数据进行分析、汇总及画像,并将分析结果存储于高性能的key-value数据库(Redis)中,以供广告投放平台查询广告相关的有效人群,为广告竞价投放过程提供决策依据,实现将广告投放到最有可能发生购买行为的人群中的目的,以提高广告投放整个过程的投资回报率(ROI, Return On Investment)。
其他文献
社区矫正起源于国外,如今在西方发达国家已经步入成熟阶段。2003年,社区矫正试点工作在我国试点展开。经过十年来的不断探索,社区矫正工作从试点逐步进入推广和规范,但依旧处于较
论文介绍了云南大学旅游文化学院心理咨询管理信息系统的研究背景、项目意义和目前的研究与应用现状,明确了论文研究的内容和主要工作;在业务分析中,论文对云南大学旅游文化学
在ITS领域中,运动目标检测、车型辨识等问题一直都是研究热点和重点。由于自身的特点和优势,图像处理与模式识别被广泛地应用到智能交通领域中。本文结合长江二桥安全监控项目,
本文以党的十八大和十八届三中全会、四中全会倡导的建设法治国的总方针和我国现阶段的大力反腐举措为背景,阐述了公职人员财产申报制度的理论支撑和财产申报立法的必要性和
工业化、城镇化的不断推进使得我国城乡关系进入了统筹发展的历史时期,而目前城乡一体化、新型城镇化的进一步发展,传统的重城轻乡的发展模式,以及近几年前的新农村独立的规划模
财政支持政策与生态庄园经济可持续发展有着密不可分的关系。首先,财政支持政策是生态庄园经济可持续发展的重要保障。财政支持政策如果能够与庄园经济的发展很好地协调配合,
当前,我国高等教育已从“精英教育”步入“大众化教育”阶段,高职教育以其鲜明的办学特色从中脱颖而出,但是随着量的扩张质的问题也日趋突出,教学评价作为教学质量监控及保障
基于中学现实中评课所存在的困境和平水传习工作室所开展的评“评课”教研活动的实践历史经验,本研究试图探索出一条理想化的评“评课”教研活动路径。基于以上研究宗旨,本研究
设计重视民生,至关重要的是要从文化的深层追寻设计的生活之"根",真正让设计服务于生活首先重视的是现在的、活着的设计,如果生活中的每一件设计作品都与生活发生一种积极的
教材管理是教学管理的重要基础工作之一,是维持正常教学秩序的基本条件,也是深入教学改革和提高教学质量,培养合格人才的重要保证。高校教材管理是否合理将直接影响到教学工