基于N-Gram向量特征的社交媒体短文本语种识别方法研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:qwy1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于社交媒体平台而言,识别和标注出特定语言的文本对于情感分类、趋势提取、预测电影评分等研究都具有重要的现实意义。传统的语种识别方法大多基于语法格式良好的较长文本,而对于社交媒体消息等短文本的识别效果并不理想。本文以社交媒体短文本为研究对象,研究语料标注和语种识别方法。主要包括以下两个创新点:(1)结合域相关信息的最大化自动标注方法提出并实现了一种结合域相关信息与基分类器投票的最大化自动标注方法。该方法首先研究了域相关信息在社交媒体文本中的语言相关性,并基于用户特有语言假设提出了用户特有语言权重的计算方式。该权重计算简单,并且能够有效提高语料标注的准确性。然后,基于现有语种识别方法作为基分类器,计算每个分类器的预测概率进行加权投票,并结合用户特有语言权重进行语料的自动标注。最后,使该方法在公开数据集和真实社交媒体文本数据集上进行实验,实验结果表明相较于单独的语种识别方法和简单投票的标注方法而言,该方法在语料库的自动标注中能够获得更高的标注准确率、精度、召回率和F1-Score值。(2)基于N-Gram向量特征的语种识别方法研究提出了基于N-Gram向量特征的语种识别方法,该方法对级联森林方法进行了改进,采用了基于N-Gram加权词频和句向量的文本特征表示方法来提高语种识别的准确率。在真实的社交媒体短文本数据集上进行实验,实验结果表明该方法能够较好地识别社交媒体短文本的语种类型。相较于另外五种现有的语种识别方法TextCat、Langid.py、Language Detector、Language Detect 和 FastText,通过在预训练语言模型和重训练语言模型的两种不同的实验方式下,该方法都取得了明显较高的准确率、精度、召回率和F1-Score值。最后,本文设计和实现了语种识别系统,并在公开短文本数据集上进行测试。测试结果表明,本文所提出的语料标注和语种识别方法在社交媒体短文本上是有效的。
其他文献
数字矿山是矿山技术发展的趋势,加强矿山的数字化建设有利于传统矿山的转型升级,促进企业、环境和社会的共赢发展。但目前矿山数字化的各个环节数据独立且不利于相互传递,而数字开采系统作为矿山数字化的重要环节,是实现数字矿山的关键。本文从数字矿山的自动开采系统出发,对自动开采系统的总体结构进行了设计,着重研究了基于煤岩识别技术的采煤机调速系统和基于GIS的工作面信息管理模块及生产监控平台的搭建,将采煤机自动
近年来我国经济发展处于经济新常态时期,去杠杆调结构,转换增长动力,成为了中国经济发展的新目标。基于这种情况各级政府通过设立政府投资基金引导资本市场上的资金流动来为解决资本投资“市场失灵”和企业融资难的问题的提供新途径。然而,政府投资基金在引导社会资源的效率如何?促进增长动力的效率如何?这些问题不仅对提高政府投资基金效率、促进企业健康成长具有十分重要的现实意义,还对政府投资、资源配置等理论的研究产生
电子商务交易中,消费者拥有个人信息权,且这一权利在电子商务领域具备特殊性:在大数据背景下的电子商务交易中,消费者的个人信息已成为行业发展的基础性资源,会被经营者大范围收集,且可以通过用户画像手段具象消费者人格。这就导致保护消费者个人信息权面临的挑战贯穿个人信息收集和利用的全过程。要保护消费者个人信息权,需要明确电子商务交易中的个人信息权内涵。电子商务消费者的个人信息是指以电子方式记录的能够单独或与
梁漱溟是是现代新儒学的重要代表之一,被称为是“最后一个儒家”。“心性论”思想是梁漱溟哲学体系的重要内容,面对文化危机,他结合中西哲学不断地完善其思想,形成具有自己特色的理论体系,用自己独到的见解分析当下文化环境,表明对传统文化顽强生命力的信心。他的批判思想对于当代学者的影响不容小觑,本文从梁漱溟心性论发展的整体性入手,将梁漱溟的心性论放入历史境遇中,通过梳理其思想来源,了解心性论形成的思想背景,探
Fe-Cr合金因具备极好的膨胀系数、合适的氧化抗力、良好的导电导热性能、优异的综合机械性能及低成本等优点,成为最适合作为SOFC电堆中连接体的材料。然而,在长周期服役工作环境下,特别是阴、阳极两端不同的氧分压,常用的商用430合金呈现出氧化抗力不足,导致合金表面氧化膜层增厚、剥落以及面比电阻的增加等问题,严重制约了该合金材料开发应用。因此,本文针对Fe基合金存在的上述问题,选用SUS430合金作为
作为研究亲社会行为的新视角,社会善行指的是由于充满善意地关注别人而引发的行为。虽有大量关于自我控制与亲社会行为关系的研究,但结论尚不统一,而且在中国文化背景下缺乏关于自我控制与社会善行的相关研究。特质自我控制体现了个体行为的稳定性,而状态自我控制体现了个体行为的波动性,基于此本研究采用问卷法和实验法,从特质和状态两个角度考察自我控制对社会善行的影响。研究一采用自我控制量表(SCS)和社会善行范式(
采用焙烧-碱浸脱硅-高压溶出处理低品位铝土矿,是当前研究的热点之一。本文针对矿石脱硅所产生的含硅碱液,通过添加石灰、赤泥、硅渣及其混合物对溶液进行脱硅,系统研究了脱硅剂添加量、温度、时间等重要参数对脱硅效果的影响,并利用脱硅后液对矿石进行了循环脱硅,结合XRD、XRF、SEM、TEM、FTIR等表征手段,分析了脱硅动力学及机理。获得主要结论如下:石灰添加量和时间对脱硅效果产生显著影响,而初始碱浓度
本文以制动领域高性能耐磨材料的需求为研究背景,制备了梯度Ti C多孔陶瓷,再以其为增强相制备了梯度双连续相Ti C/Fe复合材料,并对其结构与性能进行了研究。利用模板层叠浸渍-无压烧结工艺成功制备了梯度Ti C多孔陶瓷增强体。实验中选用聚氨酯海绵作为模板,以Ti C粉为主要原料并加入少量Ti粉、Mo粉作为烧结助剂,将不同孔径的海绵模板层叠复合,利用模板浸渍-无压烧结工艺制备出界面连续过渡的梯度Ti
随着塑料工业的不断发展与进步,塑料制品在人们的生活中占的比重越来越大,人们对塑件的性能和外观要求也越来越高。在这其中,显示器后壳更是以其质量轻、耐热性好、表面光泽性好等优点得到越来越广泛的应用。注塑成型是显示器后壳最主要的加工方式,而注塑件在注塑加工过程中翘曲变形等缺陷对注塑件的质量和使用性能有非常大的影响。目前国内外对注塑后壳的结构特征所引起的翘曲变形的研究十分有限,大部分只针对工艺等方面对注塑
人体行为识别任务旨在从输入的包含目标人物活动的视频中辨别出其对应的行为类别。研究人体行为识别的理论意义在于推进科技,社会的发展;实际应用包括健身辅导、虚拟现实、城市安全等诸多领域。主流人体行为识别领域的研究方法大多采用RGB与光流融合的形式,从原始视频帧中提取相关特征。针对主流人体行为识别方法存在背景信息干扰,长时时域建模难,以及相关模态未有效利用等问题,本文提出了两种有效优化算法,具体研究内容及