基于集成学习的跨数据域文本倾向性分析研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:free522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网社交平台的蓬勃发展,传统的社交方式、商业经济结构正发生巨大变革。人们越来越青睐于通过微信、微博等社交工具与他人进行交流,互联网中涌现出大量的主观性信息。这些蕴含观点与意见的文本数据具有十分重要的价值,目前针对这些数据进行文本倾向性分析成为自然语言处理任务中主要研究内容之一。本文主要研究了文本倾向性分析的两个方面:在情感分类算法方面,设计了针对绝对不平衡数据集分类算法;在文本特征提取方面,提出了一种基于多特征融合的情感分类算法。本文的主要工作和成果如下所示:(1)针对文本倾向性分析任务,本文提出一种基于级联结构的集成迁移学习方法,从数据层面与算法层面解决训练数据绝对不平衡问题。在算法层面,提出一种基于权重恢复因子的TrAdaboost算法。该算法在解决了TrAdaboost算法中辅助数据权重不可恢复问题的同时,利用代价敏感学习思想对不同领域不同类别的样本采取不同的样本权重更新策略。在数据层面,利用级联结构对目标领域数据过采样,对辅助数据域进行欠采样,在平衡数据集的同时可以有效避免“负”迁移。实验结果表明,文本提出的基于级联结构的集成迁移学习算法可以很好的解决数据绝对不平衡问题,其分类效果好于目前主流的不平衡分类算法与实例迁移学习算法。(2)分布式词向量训练模型主要针对文本的上下文共现关系,忽略了单词的内在情感特性,虽然一些研究开始引入已有的情感资源来增加词向量的信息,但是都没能考虑领域依赖问题。本文提出了一种基于多特征融合的情感分类算法,一方面,通过将词语上下文信息与词语情感特征、词性特征融合实现词语向量化;另一方面,结合不同卷积核的CNN-LSTM模型结构实现句子向量化。实验结果表明,本文提出的基于多特征融合的情感分类模型可以提升情感分类效果。
其他文献
海洋中存储着大量的石油资源,随着人类对石油需求量的快速增加,研究海上石油开采技术就显得愈加重要。传统海上石油钻井平台使用锚泊定位的方式,适合浅水区作业。但随着水深
企业通常需要通过债务融资,支持企业不断发展壮大。境内的债券融资品种丰富多样,但是由于:1)境内外债券融资难易程度和标准的差别;2)境内外债券融资价格的差别;3)境外债券市
辅助式同步磁阻电机介于永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)和同步磁阻电机(Synchronous Reluctance Motor,SynRM)之间。永磁同步电机的永磁体材料一般为钕铁硼和铁氧体,其中钕铁硼电机存在高成本、高速过压以及高温退磁等问题。而铁氧体电机相对更有优势,同时可以利用磁阻转矩和永磁转矩来提高功率密度和效率,所以受到学者们
设B为一双分数布朗运动,指标H∈(O,1),K∈(0,1],并且2HK
电力作为经济社会发展的重要能源保障,供电可靠性的重要性日益凸显,粤北山区人民追求美好生活的需要也对电力服务也提出更高的要求。只有配电网自动化的实用化水平不断提高才能满足粤北山区电网实现故障快速隔离以及非故障区段快速复电的需求,从而实现粤北山区人民用好电的美好愿望。而配网自动化能否发挥应有的效果主要取决于自动化的规划是否合理合规以及应用是否因地制宜。本论文主要完成了以下五个方面的工作:(1)查阅了大
森林在维持生物圈平衡、实现资源可持续发展等方面扮演着重要角色。森林生物量表征了森林生命活动,反映了植被生长状况,尤其体现了森林获取能量的能力和固碳能力。森林生物量的估测是研究、监测和治理生态环境的重要一环,也是目前众多学者探索的热点问题之一。SAR技术因其全天候全天时、穿透性强等独特的优势,为植被相关问题的研究提供了新的手段,并被越来越多地应用于生物量反演相关研究。针对SAR图像参数与森林生物量之
近年来随着直流输电技术的应用和发展,在直流电缆运行的各种工况下都具有良好电气性能的绝缘材料拥有广阔的应用前景与实用价值。空间电荷的积聚并造成局部场强畸变是直流电
近年来,随着市场经济的持续发展,商业银行也在快速发展。根据中国银行保险监督管理委员会2020年3月份银行业金融机构资产负债情况表显示,我国商业银行总资产已经达到244万亿元,且比上年同期增长率为8.3%。商业银行的健康发展,对于我国金融业的稳定具有举足轻重的影响,更对我国经济发展起到良好的促进作用。但相较商业银行的发展而言,商业银行引发的相关案件也多次发生,对商业银行的发展产生了不利的影响。而这些
零样本图像分类属于图像分类领域,是受人类推理能力的启发而提出的一项新技术。零样本分类的任务是识别在训练阶段没有训练样本的未见类别样本。实现零样本分类目标的途径是
本文首先研究了一类分数阶泛函微分方程的初值问题,借助Darbo不动点定理,及L1空间中测度紧集的相关性质,建立了这类问题的解在L1空间中存在的充分条件.注意到涉及分数阶微分