基于改进的Boosting的跨语言情感分类方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:liongliong551
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分类旨在利用计算机技术充分挖掘和判断文本发布者的情感态度,为决策者提供有价值的参考信息。但相关技术高度依赖训练语料的质量和数量,而国内外有效的高质量分析语料、情感词典资源等分布不均的现状使得跨语言情感分类研究应运而生。研究者们对跨语言情感分类技术做了很多努力,但仍存在如下问题:实现语言映射时忽略了词语对所在语境和所属领域的依赖性;主题迁移和翻译错误可能会导致数据分布存在差异;将源语言实例全部应用于训练分类器,这些源实例可能会不同于目标语言的分布。针对上述现有研究存在的问题,本文的研究工作主要包括以下内容:1)将迁移学习技术与Boosting算法相结合,提出ClAdaBoost算法并应用于跨语言情感分类研究中。首先在由源语言和目标语言组成的联合训练集上训练获得初始弱分类器,然后根据在目标语言训练集上计算的错误率对样本权重进行更新,重新训练获得新的弱分类器,如此迭代,最后将多个弱分类器按照一定的规则相结合,从而构造了一个对目标语言友好的强分类器。2)在上述改进算法的基础上提出ClKAdaBoost算法,通过引入K近邻算法对源语言训练实例进行筛选。由于在上述改进的Boosting算法(ClAdaBoost)中,错误预测实例的权重将会被提高,以便下一个基分类器可以学习先前未获得的知识。但在迁移学习背景下,尚未正确预测的源实例可能远离目标域,而增加这些实例的权重可能会误导基分类器学习过多的源噪声。因此,本文在构造分类器之前采用K近邻算法对源语言训练数据进行筛选,试图挑选源语言中那些对学习目标任务“有用”的实例,然后基于Boosting技术形成一个具有高准确率的强分类器。3)将本文提出的两种算法在数据集NLP&CC 2013上与多种基准算法及原有算法进行对比,实验结果表明:与未使用迁移学习技术的算法相比,本文所提出的第一种算法ClAdaBoost有效地改善了分类性能;第二种算法ClKAdaBoost比ClAdaBoost算法具有更高的分类正确率。
其他文献
食盐是关乎国计民生的商品,清朝的盐课又是仅次于田赋的国家第二大财政收入来源。清政府出于增加税收,稳定社会的需要,对食盐行销实行专卖制度,该制度存在着众多弊端。清代湖南省作为食盐纯销区,由于政治因素、地理因素以及市场供求因素影响,导致官盐运输不畅,私盐逐步占领湖南市场。本文将从私盐产生原因、表现、治理措施、成效及评价等方面,对湖南私盐治理问题进行研究。湖南和四川、广东、湖北山水相连、水路相通,这种地
半环作为一种常见的代数系统,在拓扑学、分析学、计算机科学等方面有着极其重要的应用.半模作为半环的一种表示,是研究半环结构的一种有效方法,而到目前为止,对称性一直未推
家禽羽毛表面结构是自然界中较为复杂的结构,是理想的仿生研究对象。本文以四种家禽羽毛为样本,通过软刻蚀法制备具有羽毛表面微观结构的高分子PDMS仿生膜,并对家禽羽毛及PDMS仿生膜进行微观结构观察、红外光谱和表面自由能分析、双疏性测定及PDMS仿生膜抑菌性评价。主要研究内容包括:(1)通过光学显微镜和扫描电子显微镜,观察四种家禽的羽毛以及PDMS仿生膜上的羽小枝结构有三种主要类型:节状羽小枝、有钩羽
蝉花是一种具有营养和药用价值的食药两用真菌。其主要活性产物皂苷有抗肿瘤,抗癌,降血糖以及免疫调节等功效。但是,天然蝉花子实体生长受外界环境影响栽培困难,生长周期长,
泰乐菌素(Tylosin,TYL),是从弗氏链霉菌的培养液中获得的一种大环内酯类抗生素。替米考星(Tilmicosin,TMC)是由TYL为前体物半合成而得。因为其良好的抑菌性,TYL和TMC被广泛应用于
润湿效应在各行各业中都有着重要的应用,其研究基于一般液面形状对接触角、液体表面张力等参数测量,从而反映固态材料表面特征、流体特征。光学测量方法具备高精度、无损、非
人群异常事件检测研究通过计算机自动识别监控场景中发生的异常事件并及时报警。本文对人群异常检测事件中人群之间存在阴影和异常种类多样的问题进行了研究,提出了基于分块V
研究背景与目的:人工关节置换术失败的一个重要原因是由钛颗粒刺激的假体周围骨溶解和随后的人工关节无菌性松动。本研究的目的是研究鱼藤素对破骨细胞分化和由钛颗粒介导的骨溶解的影响。我们已经证明,从豆科植物中提取的天然成分鱼藤素对由钛颗粒刺激的小鼠颅盖的溶解具有显着的抑制作用。进一步的组织学分析表明,预防钛颗粒诱导的骨溶解的关键是抑制破骨细胞的分化和功能。我们发现鱼藤素可以通过诱导核因子-κB受体激活剂配
种群遗传多样性与遗传结构是保护遗传学的重要研究内容。本研究利用线粒体DNA和12个微卫星位点分析了雕鸮(Bubo bubo)东北与华南亚种种群遗传多样性与遗传结构。研究目标是:1
苯基聚硅氧烷由于具有优异的耐高低温、耐辐照、阻燃以及高折射率等性能,在航空航天、电子电气等高技术领域得到了广泛应用。目前所报道的苯基聚硅氧烷材料通常是由开环共聚