基于HMM的商标词识别研究与应用

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:phf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,百度推广的风险防控政策未做到精细化控制,限制规则范围太广。不管是什么行业,只要涉及低俗、有线上风险,就不让展示广告。导致许多企业的有效关键词得不到购买和展现,失去了很多入口流量,误杀率高,同时带来大量客户投诉。所有这些,使线上的风险情况不能及时得到控制,线上商标和竞品的风险一直居高不下,导致商标类风险在线上风险中达到63%左右的比例。本文针对命名实体识别的现状及算法进行了研究,分析了百度推广风险防控的不足,提出了基于隐马尔可夫模型(Hidden Markov Model, HMM)的商标词识别与应用的解决方案。即在行业区分和角色标注地获取原始语料库基础上建立HMM模型后,采用Viterbi算法预测商标词,并将生成的商标词策略词表和风险识别模块通过服务接口应用于审核系统中。最终达到了降低商标类的线上风险,同时优化企业与网民的体验并提高广告收入的研究目的。本文的主要工作如下:第一,介绍了本文的研究背景与研究意义,对涉及的相关命名实体识别和百度风险防控面临的问题进行了论述,简述了论文的研究内容与结构。第二,讨论了商标词的识别和算法的改进,提出了一种基于HMM的商标词识别方法。该工作分为三部分:(1)将百度内部审核日志、物料信息等,进行分行业、切词、分角色标注等处理,得到语料预处理结果;(2)在HMM训练时,同时使用Viterbi算法进行预测,自动角色标注识别商标词;(3)进行商标词识别的实验及分析。实验结果表明:该方法有较高的准确率、召回率和F值。第三,讨论了商标词识别改进算法的应用。该工作亦分为三部分:(1)通过区分行业进行数据获取并预处理成所需的原始语料库:(2)通过改进的识别算法识别商标词;(3)为其他系统应用提供商标词识别的服务接口,如生成商标词策略词表,以规则的粒度进行分行业限制,降低误杀,以及将商标风险识别模块应用于线上广告的巡查中,识别商标类风险,降低线上风险。第四,进行了系统实验与分析,对商标词应用的风险及消费相关的影响进行了描述。分析结果表明:应用本文的商标词识别后线上风险占比降低了57%左右,广告收入提高至上亿元,证明了本文研究应用的有效性及实用性。
其他文献
徐志摩是新月派重要诗人,在诗歌的形式方面,他和闻一多一起提倡新诗的格律,为我国新诗的健康成长作出了较大的贡献。徐志摩一生追求单纯的信仰:爱、美、自由。因此,爱、美、
背景与目的大肠癌是人体消化道中最多见的恶性肿瘤之一,发病率在肿瘤中靠前,在所有死亡的肿瘤患者中,大肠癌的比例大约十分之一,早期发现的大肠癌手术效果极好,部分患者可以
1研制背景变电站土建施工现场因为危险源的存在,潜在的危险因素可能对施工作业人员造成伤害,也可能导致供电公司财产损失或造成环境破坏。在现场,危险源存在的形式多种多样,
<正>近3年来,吉林市昌邑区人民检察院积极探索新形势下社会矛盾化解工作新途径,紧紧围绕经济和社会发展大局,充分发挥检察职能作用,收到了较好社会效果。2007年以来,不捕率逐
随着国防和军队改革持续深入地全面展开,省军区系统国防动员准备面临全新挑战与机遇。当前,必须深入学习贯彻习近平强军思想和新时代军事战略方针,紧紧扭住"四个立起来",紧盯
概述了磨损的系统特性,磨损的基本研究方法和步骤,我国耐磨材料发展的现实情况,指出了现存问题,提出了解决这些问题的对策和发展方向。
犬猫异体血浆的临床应用在我国兽医中还处于初级阶段,但在国外相关的研究已经比较完善,且有了一定临床应用经验。在国外兽医临床中主要应用新鲜冷冻血浆(Frozen Fresh Plasma
本文介绍了"初始兴趣混淆"原则在美国的主要判例和学者观点,介绍了中国的主要学者观点和为数极少的相关判例,分析了这一原则在美国和中国法律环境的不同,并从经济角度分析了
<正>由于已实施的《侵权责任法》未对残疾赔偿金的计算方法作新的规定,所以在人身损害赔偿案件中,残疾赔偿金的计算仍然依据最高人民法院《关于审理人身损害赔偿案件适用法律
背景与目的:新辅助化疗后局部晚期鼻咽癌大体肿瘤体积(gross tumor volume,GTV)明显缩小,本研究探讨按新辅助化疗后的大体肿瘤体积勾画肿瘤靶区,观察此勾画方式的改变对靶区