基于半监督学习的智能手机命名实体识别

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yeyuan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展普及,越来越多的消费者通过各种论坛、微博等平台浏览产品信息以做出购买决策,同时分享自己的产品使用感受,这种现象在智能手机领域尤其明显。对手机品牌商来说,通过网络渠道收集用户对自身产品的使用反馈是件很有商业价值的事情。然而用户发布的产品信息中,可能包含各种类型的简写、昵称、错误拼写等,随意性强,识别难度大。因此非正式短文本手机命名实体识别是个既有意义又富有挑战的任务,也是本文的研究兴趣所在。为解决该识别问题,本文主要从以下方面开展研究:(1)在利用word2vec获得词向量后,本文提出基于音译映射的改进k-means词聚类算法,该改进算法很好地将诸如“PLUS、puls”等表示同一命名实体但不同表达的各种简写、昵称、错误拼写聚到一起,而将其与实际语法语义关联度低的噪声词分开。并由聚类结果得到构成产品名的品牌名、系列名、类型名、属性名列表,融入这些列表特征的识别算法较好地解决了简写、昵称、错误拼写的问题;(2)在基于音译映射聚类的列表特征及词向量特征基础上,本文还用1/2k-means聚类算法对词向量进行层级聚类,求得每个词的二进制类别编码,由此探索出了能进一步提升识别效果的1/2k-means层级聚类特征;(3)本文提出了一种新的半监督方法来解决标注语料不足的问题,该方法只需少量人工挑选词语的努力就可以半自动获取大量标注数据。利用手机名称的命名特点,先根据规则从规范手机全名列表中提取正例,再通过少量人工挑选获取负例,然后遍历训练集匹配正例、负例,从而自动标注每个训练样本。最后在1000条包含20个品牌智能手机的测试集上,完成了一系列特征组合对比实验,验证了本文所提出的基于音译映射聚类的列表特征、1/2k-means层级聚类特征的有效性,最佳特征组合的性能指标上达到了精度93.39%、召回率89.76%、F1值91.54%的水平,好于同类方法,同时也证明了半自动标注方法的可行性。
其他文献
电视的数字化是一场席卷全球的技术革命,数字电视技术是未来电视产业发展的必然趋势,也是实现广播电视网络化的前提和必要条件,目前我国正在推进的三网融合也离不开数字电视
过去几年,为应对无线通信产业带来的巨大能量消耗,许多新颖的技术不断被提出。作为即将来到的5G引入技术之一,密集组网技术带来系统容量进一步提升的同时,也使得无线蜂窝网对
医学图像分割在医学影像分析中占据着非常重要的位置,为临床医学的发展产生积极的推动作用。比如对病灶进行定量分析从而使得医务工作者对病患的病情有着系统的了解,同时随着
神经性疾病已经成为全球健康的主要威胁,其早期诊断有助于显著降低其发病率,脑核磁共振(MR)图像处理方法是神经性疾病早期诊断的有效手段,配准方法是其关键环节,直接影响其临床应用
钢管作为能量交换和物质运输的重要工具,已广泛的应用于石油化工、冶金、城市水暖供应等各行各业。然而,由于管道多是在高温、高压或者潮湿等恶劣环境下工作,导致其易在各种
皮带机群控系统是一个典型的离散事件控制系统(Discrete Event Control Systems,DECS),无法通过传统的描述连续变量动态系统(Continuous Variable Dynamic Systems,CVDS)的计
随着社会经济的发展和人民生活水平的提高,人们对通信的要求也越来越高,广大用户已不能满足于单纯的语音、数据及低速视频传输,而需要的是业务种类更多、数据传输速率更大和
在过去的几十年,RFID技术获得了飞速的发展,如今它的应用已经扩展到工业生产和电子消费的各个领域。RFID已经成为了IT产业的一个重要组成部分。防碰撞技术的研究对射频识别技
目前,移动通信行业发展迅速:一方面,多输入多输出(MIMO: Multiple Input Multiple Output)技术备受重视;另一方面,能源消耗和环境压力增长,带来了一个新的理念—“绿色通信”
测井是石油勘探开发的重要环节,是科学、经济、合理地开发油田的重要手段。   测井电缆通信系统是测井系统的关键组成部分,完成将井下仪器采集的数据实时准确传输给地面计算