论文部分内容阅读
随着互联网的发展普及,越来越多的消费者通过各种论坛、微博等平台浏览产品信息以做出购买决策,同时分享自己的产品使用感受,这种现象在智能手机领域尤其明显。对手机品牌商来说,通过网络渠道收集用户对自身产品的使用反馈是件很有商业价值的事情。然而用户发布的产品信息中,可能包含各种类型的简写、昵称、错误拼写等,随意性强,识别难度大。因此非正式短文本手机命名实体识别是个既有意义又富有挑战的任务,也是本文的研究兴趣所在。为解决该识别问题,本文主要从以下方面开展研究:(1)在利用word2vec获得词向量后,本文提出基于音译映射的改进k-means词聚类算法,该改进算法很好地将诸如“PLUS、puls”等表示同一命名实体但不同表达的各种简写、昵称、错误拼写聚到一起,而将其与实际语法语义关联度低的噪声词分开。并由聚类结果得到构成产品名的品牌名、系列名、类型名、属性名列表,融入这些列表特征的识别算法较好地解决了简写、昵称、错误拼写的问题;(2)在基于音译映射聚类的列表特征及词向量特征基础上,本文还用1/2k-means聚类算法对词向量进行层级聚类,求得每个词的二进制类别编码,由此探索出了能进一步提升识别效果的1/2k-means层级聚类特征;(3)本文提出了一种新的半监督方法来解决标注语料不足的问题,该方法只需少量人工挑选词语的努力就可以半自动获取大量标注数据。利用手机名称的命名特点,先根据规则从规范手机全名列表中提取正例,再通过少量人工挑选获取负例,然后遍历训练集匹配正例、负例,从而自动标注每个训练样本。最后在1000条包含20个品牌智能手机的测试集上,完成了一系列特征组合对比实验,验证了本文所提出的基于音译映射聚类的列表特征、1/2k-means层级聚类特征的有效性,最佳特征组合的性能指标上达到了精度93.39%、召回率89.76%、F1值91.54%的水平,好于同类方法,同时也证明了半自动标注方法的可行性。