【摘 要】
:
基于神经语言模型的词向量表示技术,能够在大规模的未标注文本数据集中,从词语、短语和句子等不同粒度的语言单元中自动学习有效的文本特征表示,已经在许多自然语言处理任务
论文部分内容阅读
基于神经语言模型的词向量表示技术,能够在大规模的未标注文本数据集中,从词语、短语和句子等不同粒度的语言单元中自动学习有效的文本特征表示,已经在许多自然语言处理任务中取得重要进展。本文的研究对象是微博文本的情感分类问题,具体研究内容如下:一、探索了中文微博的情感分析过程中,表情符号的情感指示作用及其与情感词的区别。通过收集训练集中的表情符号,并依据使用次数降序排列,同时对其进行情感标注,发现情感符号的使用频率越高,具有情感指示作用的可能性就越高,其情感明确的可能性也会越高;考虑表情符号与情感词在句子中的语法功能差异,对NLPCC数据集中4种最常用的情感分别选取5个最有代表性的表情符号和情感词,使用词的分布表示技术学习表情符号的语义表示向量。对两者的词向量空间进行PCA,观察二维空间中的映射关系发现,词向量空间具有一定的情感语义区分能力,且表情符号的区分度更高。同时,表情符号比情感词具有更强的多情感区分能力。二、提出了一种结合汉字和词语的平行通道词向量卷积神经网络模型,提高了微博的情感分类效果。由于中文微博面临分词困难和错误率高等难题,本文探索了汉字和词语分别作为语言单元时,对于利用传统机器学习模型和CNN模型进行中文微博情感分类的影响,实验结果表明两者各有优势,有效结合两种特征有利于提高分类效果。实验结果表明,忽略特征工程因素的影响,相对于MMNB和SVM两种基准分类器,本文提出的模型可显著提高中文微博情感分类的准确率1.72%到2.64%,并缓解特征空间的“维度灾难”。汉字和词语分别作为统计特征的基本单元,对于这些模型都有一定影响,有效融合两种特征可以提高中文微博情感分类性能。
其他文献
在近年来的发展过程中,伴随城市化进程的加快,极大地推进了城市轨道交通的发展。在此背景下,呼和浩特地区在城市轨道交通建设方面也开展了相应工作,开始进行轨道交通1、2号线
移动通信技术的不断发展,不同带宽、不同体制、不同频率的移动通信系统满足了不同业务发展的需要,形成了多频多体制共存的显著特征。在此背景下,移动终端的工作频率越来越多,
技术创新对于企业发展具有重要作用。在经济全球化背景下,许多跨国企业通过OFDI在国外获取技术支持以提升其技术创新能力。我国OFDI起步比较晚,20世纪80年代,投资模式主要是新建;在20世纪90年代,我国OFDI迅猛发展,以海外并购方式作为主要形式。许多研究探讨了OFDI对于我国企业技术创新机制和效应,但并没有形成统一的结论,一些研究认为,OFDI在促进我国企业技术创新方面发挥了作用,而另一些学者
混凝土中的钢筋锈蚀会导致结构提前开裂,缩短服役寿命,造成重大的经济损失。针对锈蚀问题,基于微胶囊修复技术为钢筋混凝土结构耐久性问题提供一种新颖的解决方法,对于保护结
固液双相摩擦纳米发电机(TENG)是一种新型的能源采集器件,相比于传统的固相摩擦纳米发电机,固液双相的耦合能够极大地改善TENG的输出特性、使用寿命、摩擦特性、磨损与老化性
采购作为企业生产经营过程中的一项重要活动,在企业发展过程中起着关键作用。采购过程中可能发生的风险,不仅影响采购预期目标的实现,甚至影响企业战略发展的目标实现。随着
随着互联网+的发展,大量线下服务接入互联网,信息严重过载,使用户无从选择,推荐系统应运而生。推荐系统用于解决信息过载问题,帮助人们筛选出感兴趣的信息。然而,仅仅使用推
城市建设不断加快,地下管廊和市政工程正在紧张而有序的开展。由于杭州等东部沿海部分区域土体物理性质恶劣,在进行基坑开挖或修筑路堤时,往往需要考虑到地表沉降和施工安全
随着现代教育技术的飞速发展和推动,信息技术在教学领域中广泛使用,对我国教育工作者的专业发展提出了更高的要求。教师TPACK水平在信息时代背景下教师专业技能的提高与突破
税收法定落实之关键在于如何处理好税收严格法定与税收授权立法之间的关系,而税收授权立法又以立法机关对行政机关进行立法授权为前提。“令状授权”与“法条授权”构成了立