百度众测—用户标注系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:tang355402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标注数据具有非常广泛的应用价值。一方面,高质量的标注数据是一些机器学习算法的基础,由于公司内部各条产品线进行用户行为分析、图片识别算法等等课题研究的日益深入,各类标注数据的需求量日益增大;另一方面,在数据类型人工分类、竞品对比等方面,也需要进行人工标注。在用户标注系统上线之前,大多数的标注工作由PM (Product Manager,产品经理)和外包完成。PM标注由于人力限制,标注量达不到要求;而外包人力标注经济成本和培训成本大。为此,百度众测平台加入了用户标注类项目,目的是利用大众的能力与资源,为百度各产品线提供一套低成本、高收益的人力资源解决方案,为各产品的优化提供大量的高质量原始数据,帮助公司产品提高整体质量和效果。用户标注系统是百度众测的一个子系统,其采用了Web应用比较常用的MVC模式进行开发,基于LAMP架构,部署于百度应用引擎BAE之上,并以百度云环境提供的其他基础功能作为支撑。这种方式的优点在于可以更加专注于业务逻辑,脱离了环境部署、过多容灾机制等问题的困扰,并且服务器性能可以通过申请更多存储和计算节点的方式进行动态的扩展。当然这种方式也有一些缺点,比如依赖于云环境的稳定性,没法根据自己的需求对机器部署方式进行调整,等等。本文从项目背景出发,首先讲述了基于众包理念的用户标注系统的应用前景;进而介绍了系统的具体技术选型;论文的重点部分是系统的业务需求分析和设计,以及具体实现部分,在其中介绍了系统需要完成的具体功能以及在设计和实现过程中的一些具体的考虑;最后对用户标注系统当前的状况以及需要进一步努力的方向进行了总结和展望。
其他文献
目的探讨社区康复治疗对高血压患者血压及认知行为的影响。方法选取桃源社区健康服务中心98例高血压患者,随机双盲分为试验组与对照组,各49例。试验组给予社区康复治疗,对照
随着市场经济的快速发展和城市化进程的加快,进城务工人员的数量急剧增加。流动人口正在由个体流动转向家庭流动,大量农民工子女随父母来到城市生活。流动儿童问题现已成为学界
本文主要研究公共财政与社会工作服务发展的关系,尝试构建一个覆盖“预算――投入――监督――评估”,以及外部支持的公共财政支持社会工作服务发展的体系。本文从理论上阐述了
针对文献计量研究中存在的来源数据多靠手工录入的瓶颈,介绍一种利用题录文件快速获取文献基本信息的方法。以CNKI中参考文献管理软件RefWorks提供的题录文件为数据来源,应用
最近几年我国政府对农村义务教育不断重视,颁布了诸多关于义务教育公平的政策,这对于缩小城乡义务教育之间的差距发挥了重要作用。但通过分析发现成效并不显著,政府对此负有不可
目的为了研究在早产儿中使用不同的喂养方式对其今后生长发育的影响。方法选择2011年4月-2013年4月在我院住院的早产儿120例,按照喂养方式不同,分为A组、B组、C组,每组共有早
由于户籍制度改革,人口流动加快,西部农村青壮年大规模外出流入到江浙沿海地区,留下行动不便、留恋故土的老人,这些老人往往物质匮乏,精神孤独,生存现状不容乐观。为此,需要
中国对虾是我国最主要的对虾品种之一,具有丰富的营养价值、消费量大,在我国广泛养殖;但目前也面临众多水产品共同面临的问题——易腐败变质。因此,人们开发出了各种针对水产
党的十六届六中全会报告明确提出“建设宏大的社会工作人才队伍”的目标和“建立健全以培养、评价、使用、激励为主要内容的政策措施和制度保障,确定职业规范和从业标准,加强专
在作文教学中,从训练学生的思维着手,加强发散思维训练,通过联想、想象、猜想、推想等开拓思路,培养学生多角度思考问题的能力,加强顺向思维、逆向思维、辐合思维训练,全面提高学生