论文部分内容阅读
伴随着互联网的蓬勃发展,传统广告与互联网相结合,出现了互联网广告这一崭新的商业模式。数字媒体的特点使得互联网广告具备成本低、交互性强、可计算等许多传统广告所不具备的优势,这些优势使得近些年互联网广告发展势头迅猛,相关的研究也受到越来越多学者的重视。广告代理如何依据用户的各种上下文信息,从广告主所提供的海量广告中选择出最适合的广告展示给用户,是互联网广告投递过程中的一个重要的问题。要解决这一问题,就需要关注广告和用户上下文中出现的商品名称。广告中的商品名称直接表明了广告所宣传的商品对象,而用户上下文中出现的商品名称具有很强的指示性,能够一定程度上反映出用户的购物意图,这两类信息为互联网广告的有效投放提供了依据。除此之外,为了防止宣传违禁物品的广告流入广告发布平台,广告代理也需要关注广告主所提供的广告内容中出现的商品名称。在本论文中,我们针对在互联网广告投递过程中出现的,和商品名称识别相关的三个问题展开了研究:1.同种商品可能有多个不同的中文名称,用户上下文中出现的是某件商品的一个名称,在宣传该商品的广告中可能使用的却是此商品的另一个名称,广告代理的自动程序无法识别出这两个名称实际上指向的是同一件商品,这样就会导致在向此用户投递广告的时候,遗漏掉该广告,从而影响广告投放的经济收益。为了解决这一商品别名识别问题,我们建立了一个用于获取同种商品各种不同名称的类实例自动获取系统,该系统能够在已知某种商品两个不同名称的基础上,自动获取该商品的其他各种不同名称。此系统以我们所发现的商品出售页面中的一种特殊现象为基础,利用该现象从出售商品的网页标题中获取到该页面所出售商品的各种不同候选名称。为了从候选名称中选出正确的商品别名,我们提出了基于集合运算的无关词过滤方法、基于点间互信息的修饰词过滤方法,我们还提出了将候选商品名称相互间的关系抽象为图,然后在图上使用带重启的随机游走、Simrank++计算候选商品名称可靠性的方法。2.要防止宣传违禁物品的广告流入互联网广告发布平台,就需要建立一个包含同种违禁品各种不同中文名称的列表,使用该列表对广告主所发布的广告进行过滤审查。为了识别违禁品的别名,我们建立了一个用于获取同种违禁品各种不同名称的类实例自动获取系统,该系统能够在已知某种违禁品两个不同名称的基础上,自动获取该违禁品的其他各种不同名称。由于网络上出售违禁品的页面数量要小于出售普通商品的页面数量,因此原先在商品别名识别问题中采用的可靠性计算方法不再可行,在这样的情况下,我们提出了使用谷歌距离计算候选违禁品名称可靠程度的方法。3.为了有效的进行互联网广告投递,需要把用户上下文中出现商品名称的位置自动识别出来。使用有监督机器学习的方法进行商品名称位置的自动识别需要一定量已经手工标注好的训练数据作为基础,但是公开的能够用于商品名称识别的训练数据的数据量较少,这就要求我们在小训练样本下实现商品名称的自动识别。使用含有丰富语义信息的特征能够一定程度上提高命名实体识别系统的性能,在本文中我们探讨了聚类特征、分布特征在小训练样本下对商品名称识别效果的影响。