跨语言文本情感分类技术研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:yingq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在丰富和方便人们日常生活的方方面面的同时,不断发展壮大着的互联网也带给人们在言论上的自由。人们在网络上以文本表达自己的观点,进而产生了海量的关于各种事物的评论文本。这些评论文本蕴藏着人们对于事物的褒贬、需求等意见,是国家政府了解公众舆论,公司企业提高自身产品水平的重要参考。分析和挖掘评论文本是情感分析和意见挖掘的一个研究方向,其中文本情感倾向分类是一个重要的基础研究课题。初期的研究工作主要是在英文语境下进行,随着互联网国界不断地扩张,不同国家和地区的语言文字逐渐出现在了互联网上,文本情感分类在这些缺少情感标注语料的语言环境下遭遇了挑战,为此研究者主要通过实例迁移和特征迁移的方法进行跨语言文本情感分类,以期利用英文等其它语言的丰富标注语料提高分类效果。
  注意到深度学习在自然语言特征表示上的成果,本文利用 word2vec产生的词向量,提出了一种在单语言环境下优于传统分类方法的词向量袋情感分类方法(BoWE),然后在此基础上通过跨语言词向量袋算法(CBoWE)算法在同一棵哈夫曼树连接不同语言间的信息进行跨语言情感分类,接着提出了两个假设,即不同语言间相同情感倾向的文本及其中的词在语义上是相似的,和不同情感倾向文本及其中的词是相异的,由这两个假设衍生出两种词向量优化及分类器训练算法,即结构对应学习的词向量袋算法(BoWE-SCL)和异标远离的词向量袋算法(BoWE-DLA)。最后进行了实验验证。从英文到中文、日文、德文和法文的跨语言文本情感分类实验表明,在不使用机器翻译和双语词典的情况下,BoWE-SCL和BoWE-DLA算法都优于使用机器翻译进行实例迁移的基准方法,平均能提高4%~6%,并且 BoWE-DLA方法在中文和日文上优于利用机器翻译进行特征迁移的跨语言结构对应学习方法(CL-SCL)约3%,在德文和法文上接近或优于 CL-SCL方法。
其他文献
期刊
期刊
期刊
期刊
学位
期刊
期刊
期刊
期刊
期刊