论文部分内容阅读
伴随着互联网的迅猛发展,网络中的数据量也成指数增长。这些网络数据很多都是以文本形式出现的。文本作为因特网中重要的信息载体,一直是相关领域的热门研究对象。在商业中,品牌扮演着举足轻重的角色。我们对品牌的研究,也日益地深入。利用网络文本,我们能够对品牌进行系统有效的分析。其中的关键步骤就是从文本中抽取品牌词。在文本中抽取品牌词属于信息抽取的范畴。目前,大部分信息抽取的应用都利用机器学习的方法。本论文所研究的同领域和跨领域下的品牌词抽取便是基于机器学习完成的。具体地说,我们通过构建CRFs模型,利用转移学习相关算法,实现了能够在同领域和跨领域下进行品牌词抽取的系统。我们首先对CRFs和转移学习这两种相关技术进行了全面的介绍。说明两者的概念和特定任务下的应用。之后,论文详细说明我们系统中的CRFs模块和转移学习模块。其中涵盖有特征选取,标签设置,中间训练集构造。然后,为了进行实验,我们建造出适用于品牌词抽取的语料库,和用于对比我们系统性能的基准模型。论文中对语料库和基准模型的细节也做了充分的阐述。最后,我们分别在同领域和跨领域下进行了大量的实验,并分析实验结果。总而言之,我们基于CRFs的系统,结合转移学习相关算法,可以有效地完成在同领域和跨领域下的品牌词抽取任务。本论文还探讨了CRFs和转移学习中的若干关键点。