基于CRFs的同领域和跨领域下的品牌词抽取

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zybx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,品牌扮演着举足轻重的角色。我们对品牌的研究,也日益地深入。利用网络文本,我们能够对品牌进行系统有效的分析。其中的关键步骤就是从文本中抽取品牌词。在文本中抽取品牌词属于信息抽取的范畴。目前,大部分信息抽取的应用都利用机器学习的方法。本论文所研究的同领域和跨领域下的品牌词抽取便是基于机器学习完成的。具体地说,我们通过构建CRFs模型,利用转移学习相关算法,实现了能够在同领域和跨领域下进行品牌词抽取的系统。我们首先对CRFs和转移学习这两种相关技术进行了全面的介绍。说明两者的概念和特定任务下的应用。之后,论文详细说明我们系统中的CRFs模块和转移学习模块。其中涵盖有特征选取,标签设置,中间训练集构造。然后,为了进行实验,我们建造出适用于品牌词抽取的语料库,和用于对比我们系统性能的基准模型。论文中对语料库和基准模型的细节也做了充分的阐述。最后,我们分别在同领域和跨领域下进行了大量的实验,并分析实验结果。总而言之,我们基于CRFs的系统,结合转移学习相关算法,可以有效地完成在同领域和跨领域下的品牌词抽取任务。本论文还探讨了CRFs和转移学习中的若干关键点。
其他文献
最近十几年,互联网爆炸式地发展,门户网站、搜索引擎、多媒体业务、电子商务、社交网络等应用快速发展,彻底改变了人们的生活方式,使得这个时代的人越来越离不开网络,对网络的性能
车辆排班算法主要关注于如何合理地、有效地安排车辆到相应的班次,以获得费用成本的最小化。在大型运动会中,我们不仅要给每个车辆准时指派到相应的场馆,而且还需要尽量减少
现如今随着计算机科学与技术的飞速发展,数字图像处理技术的应用范围越来越广,渗透到社会的各个领域。通过高分辨率相机采集物体表面图像,经过图像滤波、边缘检测、特征提取等一
学位
随着Web服务研究的发展,越来越多的Web服务方法理论研究和应用开发在Web服务的服务质量的基础上进行,即以获得准确的Web服务的服务质量数据作为研发的前提条件。本论文提出的We
以IEEE802.11为代表的无线局域网技术正在经历飞速发展。随着无线互联网基础设施日益完善和带有WiFi功能的电子设备急剧增加,随时随地接入互联网已经不再是美好的愿望,人们正在
云计算是一种基于互联网的计算新方式,其核心思想就是将网络上的资源和能力进行更有效的分享,以达成高效率、低成本计算的目标。虚拟网络子系统作为基础设施云计算系统中必不
学位
学位
随着互联网、电子商务、电子政务的快速发展,IT服务(信息技术服务)已经成为全球经济发展的重要支柱。IT服务也逐渐变成我国现代服务业的基础。随着IT发展进入信息业务阶段,IT服