跨领域中文社交媒体命名实体识别及应用

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:king_63427501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体识别任务是自然语言处理的一项重要的基础任务,常用在信息抽取、信息检索、机器翻译、问答系统、知识图谱构建等复杂任务中,作为结构化信息提取的必不可少的重要组成部分。在社交媒体领域,每天都会产生海量的数据,从中提取出各类实体对舆情监测、市场营销等方面具有重大意义。在中文社交媒体领域,存在着用词不规范、谐音、歧义以及结构复杂多变的特点,并且语料规模有限,标注数据匮乏。本文所用的数据集均来自于开源的命名实体识别语料。包括Boson数据集、CLUE数据集、Literature数据集、MSRA数据集、People’s Daily数据集、Resume数据集、Weibo数据集。其中Weibo数据集为的社交媒体数据集,包含人名、地名和机构名等标签,一共1809个样本。本文将所有数据集做预处理,统一转换为BIO标签格式,并划分训练集、验证集和测试集。本文为中文命名实体识别任务构造了以BERT-LSTM-CRF为基础的LACD-NER模型。模型分为4层:数据层、输入层、编码层和解码层。数据层将原始数据做预处理后进入输入层;输入层利用词汇增强技术来提取更丰富的语义特征,先采用BERT相关的预训练模型将字符转化为词嵌入Char Embedding,同时对每个字符提取词嵌入Word Embedding,为了解决中文歧义、谐音等问题,输入层还加入了汉字的拼音、字形等特征Fea Embedding;编码层采用双向LSTM编码,能够同时提取正反两个方向的语义特征,由参数生成器生成参数;解码层采用CRF解码,保证输出结果的合理性。为了解决语料缺乏的问题,本文基于Cross-Domain跨领域学习框架,将命名实体识别任务与语言模型任务同时训练,借助共享输入层实现跨领域迁移。在跨领域迁移过程中,当目标领域没有标注语料时只能进行无监督训练。为了解决这个缺点,本文集成了预标注模块,将LTP、Han LP、LAC、Fool NLTK四个开源工具进行了集成。本文利用Bagging方法将不同工具的预测结果进行汇整,通过投票的方式得到预标注语料,并在损失函数计算时采用负采样损失降低漏标注标签的影响。本文构建的基于词汇增强的跨领域命名实体识别模型LACD-NER通过有监督的多任务学习,在Weibo语料上的F1值比LSTM-CRF基础模型提升约4%。另外,本文设计的预标注模块能够在社交媒体等较少标注的领域通过加入伪标签实行监督训练。
其他文献
随着经济全球化,现代科学技术的快速发展,物流业已由传统物流在不断向现代意义上的物流转变。在当前物流业飞速发展的大环境下,建立综合物流业指数体系已是必然选择。但目前我国缺少对物流业综合指数深入探讨,物流业综合指数体系不够完善。探究物流业生产指数的编制方法,既可以完善我国物流业统计内容,又是衡量我国物流业发展规模和综合服务能力的有效途径之一。本文基于国内外编制生产指数、交通运输服务指数的思路,结合我国
学位
互联网高速发展的时代催生了在线职业教育这一行业,也催生了在线评论这一表达观点的形式。我们可以从评论中挖掘出有价值的信息,比如该产品的特点属性和用户对其的情感态度如何。用户可以通过在线评论了解产品的优缺点,以便于做如何选择和购买的决策;行业可以从在线评论中挖掘出用户对产品各方面的态度,以便于进行针对性的改善。本文主要探讨以下问题:用户对在线职业教育产品是何种态度,当前产品的痛点和赞点主要有哪些。本文
学位
随着宽带等网络基础设施的建设和智能手机的全面普及,以微博为代表的社交媒体逐渐成为人们日常共享信息的重要平台。微博庞大的活跃用户群体和开放互通的特点使得每个人都成为信息的传播者,极大地提高了信息传播的速度、深度和广度,为舆论发酵提供了得天独厚的条件基础。因此,微博舆情情感分析对于舆情的疏导管控、网络秩序的维护有着极其重要意义。当下的微博情感分析通常是把单个博文作为一个整体来分析,在分析时大多局限于字
学位
随着互联网技术的不断发展,电商平台也日益流行起来,人们越来越热衷于在网络上进行购物。然而,在线上进行购物的不方便之处在于,人们无法设身处地地体验到商品的真实情况,故大多消费者都会选择参考已有的评价信息,从而获得自己所关心的内容。但目前的电商评论文本存在数据量大、真实性存疑和排序机制不完善等问题,这极大增加了消费者的时间成本,很难在较短的时间内获取到自己关心的商品信息。此外,在电商平台也会存在刷好评
学位
2021年11月15日,北京证券交易所于西城区正式开市。从9月2日宣布设立北交所以来,到最终实现开市仅仅用了75天,这是中国资本市场中甚至是全球资本市场中从一开始提出设立到最后正式开市历时最短、成立最快的交易所。北交所的开市体现了具有我国特色的资本市场支持中小型企业创新发展的急迫性,也使得中国金融市场更加成熟。从1979年,中国开始对金融市场进行改革到现在,中国金融市场不断完善,为经济的发展贡献了
学位
全球变暖问题已经是世界各国需要共同面对的艰巨挑战,其重要的诱因为化石燃料燃烧过程中所排出的大量温室气体,其中占比最多的是二氧化碳。我国是当今最大的发展中国家,是全球第二大经济体,同时也是碳排放总量最多的国家。我国关于碳排放的目标是争取在2030年前碳排放达到峰值,2060年前实现碳中和。分析测算我国产业碳排放的区域差异以及产业碳排放的影响因素效应,能够有针对性地为中国各区域的经济健康发展和碳减排目
学位
心力衰竭是人类最可怕的健康状况之一,其原因是心肌细胞再生能力受阻和心脏功能受损。心肌细胞再生不足和过度纤维化是心力衰竭最常见的原因,因为这导致组织结构和功能的重大损害。近年来,以细胞为基础的治疗,或将健康细胞引入心脏瘢痕组织,略微改善了心脏功能的各种措施,使心脏再生医学取得了重大进展。然而,对于干细胞来源的心肌细胞的成熟度和功能异质性、低存活率和传递细胞的保留以及它们潜在的致瘤性的担忧仍然存在。为
学位
股票市场作为金融系统的重要组成部分,其运行动态受到国家和人民的密切关注。而要研究股票市场,就不得不重视系统性风险的负面影响。近年来,诱发金融风险的因素增多、国内外金融环境复杂多变,这就为我国系统性风险的防控任务带来了巨大挑战。在系统性风险的防范过程中,我们需要明确系统性风险是如何在股票市场上传播的,并在此前提下搭建出合理高效的现代化金融监管框架,如此方能缜密预见各种复杂情形和意外状况,充分估计各种
学位
随着科技水平不断增长,汽车作为人类日常外出的主要交通工具,其能源动力系统也一直在不断变革当中。如今,生态环境的污染和自然资源的过度消耗等问题越发受到人们的关注,新能源汽车产业的发展也不断扩大。在电子商务盛行的今天,各类汽车门户网站应运而生,在线评论作为互联网上十分常见的一种供用户发表看法的渠道,可以反映出消费对于新能源汽车产品的真实感受。通过对大量评论文本进行情感分析,能够知晓用户对新能源汽车的使
学位
当前我国存在的一个主要经济社会问题是劳动力空间分配不合理,特别是在北上广等经济发达地区,劳动力过度竞争问题突出,而在一些经济欠发达地区,劳动力短缺问题又尤为严重,从而出现了部分地区超负荷发展而部分地区发展疲软的失衡局面,这严重限制着经济社会的可持续发展。为了克服上述因劳动力非均衡流动所造成的经济发展阻碍,必须对劳动力流动的基本规律加以深入研究,以便于运用劳动力流动的基本规律,来指导劳动力在我国各地
学位