基于双语词嵌入模型的跨语言情感分类研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:gxlw360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电子商务的飞速发展,网络上产生了大量有用的评论信息,通过对这些文本进行情感分类,可以分析出人们对某个商品或某件事的观点及态度。但是除英语外的其他语言缺乏高质量的情感资源,限制了情感分类在这些语言中的发展,跨语言情感分类能很好的解决这一问题。跨语言情感分类的目的是使源语言的情感资源更好的应用到目标语言中进行情感分类,算法的关键是弥合两种语言之间的差异,高效提取出单词的语义信息和情感信息。目前的跨语言情感分类模型大多借助双语词嵌入构建两种语言的映射,此类方法只考虑不同语言间的语义关系,忽略了情感信息,影响了分类的准确率。针对上述问题,提出两种跨语言情感分类方法,主要研究内容如下:(1)提出一种基于情感指数与双语相似度的跨语言情感分类模型(SIBS),通过三步进行跨语言情感分类。首先用情感指数算法计算英文的情感指数,然后利用线性映射方法(CBOW)在两个单语空间中分别训练出词向量,并通过TF-IDF算法提取出数据集中能体现每条评论关键信息的词,再用翻译矩阵将两种语言的词向量映射到同一个共享空间中,利用这些信息求出源语言与目标语言的相似度,最后得到中文的情感指数,用SVM分类器进行情感分类。实验结果表明,该方法能有效解决双语词嵌入中情感信息缺失的问题,提高了分类的准确率。(2)在进行跨语言情感分类时,需要对文本数据进行去噪并提取出句子中对整体情感贡献最大的部分。针对SIBS模型去噪声不足的问题,提出一种融合Bi-LSTM和注意力机制的跨语言情感分类方法,引入注意力机制进一步对文本进行降噪处理,同时利用Bi-LSTM网络在句子的前后两个方向利用上下文信息获取句子的情感特征,最后用softmax层进行情感分类。实验结果表明,该模型在电影、推特、书籍三个数据集进一步提高了跨语言情感分类的准确率。
其他文献
消费者线上评价行为盛行于电商平台领域,是消费者依照真实的消费体验,在电子商务平台上对商品、服务或经营者发表评论或评级的行为。作为新兴的消费体验信息分享形式,消费者线上评价行为能够帮助消费者填补信息盲区,提供决策参考,并形成舆论约束力,引导市场主体有序参与市场交易,从而促进市场经济健康发展。但随着消费者线上评价行为的广泛实践,也逐渐暴露出刷评炒信、不当删评、恶意差评等乱象,必须予以规制。遗憾的是,我
学位
原子光谱Stark展宽法是计算等离子体电子密度最主要的方法之一。然而,该方法计算步骤复杂、参量繁多,常常使用简化方法进行计算,显著影响电子密度的计算结果。本文将基于Stark展宽原理设计和开发等离子体电子密度分析程序,结合复误差函数从Voigt线型提取Gaussian展宽和Lorentzian展宽,并通过NIST原子光谱数据库和相关文献计算获得多种谱线展宽,得到Stark展宽从而估算等离子体电子密
期刊
我国商业空间的发展已进入存量时代,随着人们消费需求的不断升级,以传统商业街为代表的实体经济不断受到电商的冲击,商业街景观空间的设计迫切需要新的视角进行研究,以探寻解决复杂空间矛盾的思路,使商业街重新焕发活力。列斐伏尔的理论突破了将空间视作容器的传统研究思维,他认为日常生活或者说社会关系支持和生产着空间,但其中的“日常性”在今天是消极的,我们的城市生活就因循在这种缺乏活跃的日常性的日常生活之中,不能
学位
当前,我国城市发展已进入城镇化成熟阶段,城市空间发展面临着由增量拓展向存量更新转变的新常态。党的二十大报告提出了“推进高质量发展,推动构建新发展格局,实施供给侧结构性改革”的要求,使得探索高质量发展成为推动城市转型的研究重点。特大城市高新区存量工业用地当前面临着空间发展困境亟需借助更新释放发展潜力,而存量工业用地更新作为城市空间高质量发展的重要抓手,也是助推新旧动能转换的重要驱动力。因此,研究特大
学位
随着信息技术的发展和经济的飞速增长,高精密时间频率标准在各个领域发展中的重要性愈加凸显。在很多科学研究领域,如精密计时、现代通信、导航定位和计算机自动控制等都离不开精密时间尺度和时间频率测量技术。精准时间频率信号源于高可靠的原子时标系统,本文侧重于原子时标以及相关理论的实现方法研究,在理论分析与数值仿真的支撑下探究了综合时标算法中信号预测、时标产生和频率驾驭的关键技术,提出了相应的问题和创新性的解
学位
在人类正常行走的过程中,趾关节在支撑末期与地面接触并且储存能量,为摆动期提供一定的助力。然而,在现有的膝上假肢中,假脚是一个单分段结构,这会导致截肢者没有明显的支撑末期,消耗更多的能量,截肢侧与健全侧步态不协调等。针对这些问题,本论文设计了一种具有膝-踝-趾三个关节的假肢结构,构建了假肢步态切换控制系统,该步态切换控制系统可以针对截肢者的不同步态阶段,选择不同的控制器,使假肢在不同的运动状态间平稳
学位
对鸡菌(Termitomyces sp.)生长的表层土(St,5 cm)、中层土(Sm,5 cm)、里层土(Si,5 cm)以及巢腔壁(Cw)和菌圃(Fc)样本进行细菌16 SrDNA高通量测序,分析样本间细菌群落结构的变化。共获得567379条质控序列,这些序列按照相似度大于97%为一类的标准,被归为3202个操作分类单元(operational taxonomicunits,OTUs),这些O
期刊
肇始于医疗领域的知情同意规则,历经时间的发展与检验,在个人信息保护领域也渐被奉为圭臬,成为规制个人信息处理活动的“帝王条款”,其地位犹如意思自治之于民事法律。知情同意规则的重要性虽在大多数国家的个人信息保护规范中不断得以重申与确认,但其现实适用却并非没有争议:其一,在信息处理技术的加持之下,信息处理者与信息主体之间客观存在且不断加大的信息鸿沟、能力势差,致使知情和同意环节的有效性均面临诸多批判;其
学位
在新型城镇化发展理念下,随着我国老年人口的快速增长,如何促进城乡养老公平成为了学者们研究的重点。养老设施作为公共服务设施体系的重要组成部分,承担着社会养老的职责,建立覆盖城乡、布局合理的养老设施有利于缓解养老压力,促进城乡养老公平,缩小城乡发展差距。先前的学者对于养老问题的研究集中在城乡老年人的养老意愿和养老需求的调查分析、养老模式的选择、养老设施的用地适宜性评价等方面,而对养老设施布局的研究相对
学位
随着科学技术的不断创新与快速发展,学术成果如雨后春笋般涌现,科研工作者们往往将自己的学术论文发表在学术期刊或杂志上,然而如何在大量学术期刊中选择合适的期刊进行投稿,受到众多科研工作者的迫切关注。目前学术期刊推荐方法大多利用论文内容特征或学术社交网络进行推荐,若论文数据库未收录论文全文信息,基于论文内容特征的推荐算法便难以满足用户的期望,普适性和鲁棒性较差;基于学术社交网络的推荐算法因粒度粗和信任关
学位