论文部分内容阅读
目前,百度推广的风险防控政策未做到精细化控制,限制规则范围太广。不管是什么行业,只要涉及低俗、有线上风险,就不让展示广告。导致许多企业的有效关键词得不到购买和展现,失去了很多入口流量,误杀率高,同时带来大量客户投诉。所有这些,使线上的风险情况不能及时得到控制,线上商标和竞品的风险一直居高不下,导致商标类风险在线上风险中达到63%左右的比例。本文针对命名实体识别的现状及算法进行了研究,分析了百度推广风险防控的不足,提出了基于隐马尔可夫模型(Hidden Markov Model, HMM)的商标词识别与应用的解决方案。即在行业区分和角色标注地获取原始语料库基础上建立HMM模型后,采用Viterbi算法预测商标词,并将生成的商标词策略词表和风险识别模块通过服务接口应用于审核系统中。最终达到了降低商标类的线上风险,同时优化企业与网民的体验并提高广告收入的研究目的。本文的主要工作如下:第一,介绍了本文的研究背景与研究意义,对涉及的相关命名实体识别和百度风险防控面临的问题进行了论述,简述了论文的研究内容与结构。第二,讨论了商标词的识别和算法的改进,提出了一种基于HMM的商标词识别方法。该工作分为三部分:(1)将百度内部审核日志、物料信息等,进行分行业、切词、分角色标注等处理,得到语料预处理结果;(2)在HMM训练时,同时使用Viterbi算法进行预测,自动角色标注识别商标词;(3)进行商标词识别的实验及分析。实验结果表明:该方法有较高的准确率、召回率和F值。第三,讨论了商标词识别改进算法的应用。该工作亦分为三部分:(1)通过区分行业进行数据获取并预处理成所需的原始语料库:(2)通过改进的识别算法识别商标词;(3)为其他系统应用提供商标词识别的服务接口,如生成商标词策略词表,以规则的粒度进行分行业限制,降低误杀,以及将商标风险识别模块应用于线上广告的巡查中,识别商标类风险,降低线上风险。第四,进行了系统实验与分析,对商标词应用的风险及消费相关的影响进行了描述。分析结果表明:应用本文的商标词识别后线上风险占比降低了57%左右,广告收入提高至上亿元,证明了本文研究应用的有效性及实用性。