互联网广告投递中的商品名称识别

来源 :武汉大学 | 被引量 : 0次 | 上传用户:fostervfr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的蓬勃发展,传统广告与互联网相结合,出现了互联网广告这一崭新的商业模式。数字媒体的特点使得互联网广告具备成本低、交互性强、可计算等许多传统广告所不具备的优势,这些优势使得近些年互联网广告发展势头迅猛,相关的研究也受到越来越多学者的重视。广告代理如何依据用户的各种上下文信息,从广告主所提供的海量广告中选择出最适合的广告展示给用户,是互联网广告投递过程中的一个重要的问题。要解决这一问题,就需要关注广告和用户上下文中出现的商品名称。广告中的商品名称直接表明了广告所宣传的商品对象,而用户上下文中出现的商品名称具有很强的指示性,能够一定程度上反映出用户的购物意图,这两类信息为互联网广告的有效投放提供了依据。除此之外,为了防止宣传违禁物品的广告流入广告发布平台,广告代理也需要关注广告主所提供的广告内容中出现的商品名称。在本论文中,我们针对在互联网广告投递过程中出现的,和商品名称识别相关的三个问题展开了研究:1.同种商品可能有多个不同的中文名称,用户上下文中出现的是某件商品的一个名称,在宣传该商品的广告中可能使用的却是此商品的另一个名称,广告代理的自动程序无法识别出这两个名称实际上指向的是同一件商品,这样就会导致在向此用户投递广告的时候,遗漏掉该广告,从而影响广告投放的经济收益。为了解决这一商品别名识别问题,我们建立了一个用于获取同种商品各种不同名称的类实例自动获取系统,该系统能够在已知某种商品两个不同名称的基础上,自动获取该商品的其他各种不同名称。此系统以我们所发现的商品出售页面中的一种特殊现象为基础,利用该现象从出售商品的网页标题中获取到该页面所出售商品的各种不同候选名称。为了从候选名称中选出正确的商品别名,我们提出了基于集合运算的无关词过滤方法、基于点间互信息的修饰词过滤方法,我们还提出了将候选商品名称相互间的关系抽象为图,然后在图上使用带重启的随机游走、Simrank++计算候选商品名称可靠性的方法。2.要防止宣传违禁物品的广告流入互联网广告发布平台,就需要建立一个包含同种违禁品各种不同中文名称的列表,使用该列表对广告主所发布的广告进行过滤审查。为了识别违禁品的别名,我们建立了一个用于获取同种违禁品各种不同名称的类实例自动获取系统,该系统能够在已知某种违禁品两个不同名称的基础上,自动获取该违禁品的其他各种不同名称。由于网络上出售违禁品的页面数量要小于出售普通商品的页面数量,因此原先在商品别名识别问题中采用的可靠性计算方法不再可行,在这样的情况下,我们提出了使用谷歌距离计算候选违禁品名称可靠程度的方法。3.为了有效的进行互联网广告投递,需要把用户上下文中出现商品名称的位置自动识别出来。使用有监督机器学习的方法进行商品名称位置的自动识别需要一定量已经手工标注好的训练数据作为基础,但是公开的能够用于商品名称识别的训练数据的数据量较少,这就要求我们在小训练样本下实现商品名称的自动识别。使用含有丰富语义信息的特征能够一定程度上提高命名实体识别系统的性能,在本文中我们探讨了聚类特征、分布特征在小训练样本下对商品名称识别效果的影响。
其他文献
医疗体制改革的深入对医院管理提出了更高要求,尤其是在成本管理方面;运用目标成本法,可从源头控制医院的成本支出,并实现持续不断的优化改善,能有效增强医院的可持续发展力
2016年5月28日,"2016年食品药品法治研究方阵高端论坛"在中国政法大学"开坛",其主题是"我国卫生法体系的科学建构"。来自全国食品药品法治研究方阵各理事单位的代表、专家参加了本
目的探讨miR-373在肝细胞癌的表达及其作用。方法qRT-PCR法检测80例肝癌及癌旁灶中miR-373的表达;qRT-PCR法检测人肝细胞癌细胞株BEL7402、HepG2、Hep3b、Huh7、SMMC7721中mi
采用卧式数控镗铣床加工振动轮(图1)时,由于零件尺寸较大,且两端φ580孔同轴度要求较高,因此,工件的装夹校正比较困难,很难保证振动轮的加工质量.以往采用的校正方法是以主轴
具体介绍了蚕丝被的生产技术和工艺特点,明确了蚕丝被领域存在的假冒伪劣特征,及目前检测技术存在的不足。
农机安全生产的好坏,不仅关系到农业和农村冬济的发展,而且更关系到广大农民群众的生命财产安全,同时还会影响到农机化事业健康、全面发展。文章分析了农机安全管理存在的问题,并
近几年来我国房地产高速发展,房地产过热已经成为公众关注的焦点。本文将具体阐述我国房地产业在派生二元经济环境下的发展态势,并对其提出笔者自己的看法和建议。
在打赢脱贫攻坚战中,产业扶贫作为中央精准扶贫“五个一批”中“发展生产脱贫一批”的重头戏,以“造血式、开发式”扶贫方略,把贫困户植入产业链条之中,围绕某种资源、产品建
开发者在执行软件任务时,需要与软件工件如bug报告、源代码仓库等进行交互,为了获取所需要的信息,也许需要彻底地通读整个工件。然而,从bug报告和源代码中提取有价值的信息是