中文社交文本命名实体识别研究与应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ryanme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网社交平台已经成为人们进行沟通交流和信息传递的最主要渠道,每时每刻都会产生、传播海量的社交数据。如何更好地使用从这些社交文本数据中挖掘出有用的信息,从而辅助网络舆情监控、电子数据取证等重要的社会管理工作,逐渐成为自然语言处理领域的研究重点。命名实体识别是自然语言处理的重要研究方向,其识别效果将直接影响到下游信息抽取等任务。因此,对中文社交文本进行命名实体识别具有重要意义。在中文社交文本的命名实体识别任务上,主要存在以下问题:语料匮乏、文本规范性差、通用模型在该领域适用性差。针对这些现存问题,本文的主要工作如下:(1)针对语料匮乏以及通用领域模型在中文社交文本上识别性能较差的问题,本文构造出了涵盖多种实体类型的规范化命名实体识别数据集,并提出了一种基于多重卷积神经网络的命名实体识别模型。选取目前在通用命名实体识别任务上较为先进的IDCNN-CRF模型,针对其缺失局部语义信息问题,引入CNN进行局部语义信息的提取,通过注意力机制学习特征之间的相关性,并将其应用于中文社交文本命名实体识别任务。实验表明,在中文社交文本数据集上,本文所提模型具有良好的表现,满足了对于中文社交文本的识别要求,在公开测评数据集上的准确率相比目前较先进的模型也有了一定提升。(2)针对中文社交文本口语化严重、规范性差的问题,本文基于汉字的字形结构特点,构想一种融合部首特征和字特征的字嵌入方法。通过多个比较实验表明,与单一特征相比较,采用多特征融合方法进行字嵌入表示的命名实体识别模型,在中文社交文本数据集和公开测评数据集上的性能均得到了明显的改善。并将该方法应用于基于多重卷积神经网络的命名实体识别模型,实验对比显示,使用多特征融合方法的多重卷积神经网络模型相比单一特征的模型准确率有了显著提高,并且对部分识别结果较差的几类实体产生了有效的性能提升。(3)最后,本文基于前两章提出的命名实体识别算法模型,以非结构化的中文社交文本数据为对象,设计并开发出一个基于Flask框架的命名实体识别系统。本文对系统进行了明确的需求分析和功能解耦,给出了具体的命名实体识别功能细节,展示了系统最终实现效果,并且通过编写测试用例对系统的功能进行验证。
其他文献
在当今这个剧烈变化着的时代,伴随着诸如可穿戴电子产品、无人机、商用服务机器人、电动车内的各系统的车载控制器等智能设备越来越成熟、产品性能需求越来复杂,对充当伺服控制器的芯片的功能要求也越来越多变。因此采用旧有硬件结构的伺服控制器逐渐难以平衡实际应用中工程需求的各个方面。与此同时具备相当灵活性的So C设计也逐渐应用于伺服控制领域,伺服控制集成电路IP化已经是必然的趋势。目前,国内主打面向控制类需求
学位
随着信息时代和人工智能时代的快速发展,移动终端设备已经在人们的生活和工作中发挥了不可替代的作用,这对移动设备的充电速度以及充电设备的便携性都提出了更高的要求。反激式变换器以其拓扑结构简单、成本低和天然隔离输入输出环路的优点,在小功率变换器以及便携式设备的充电器领域广受欢迎。GaN功率管因为有着更高的迁移率,相比于传统的Si功率管有着更好的开关响应,在高速开关的场合中得到了越来越广泛的应用。本文设计
学位
近年来,随着人工智能快速发展,深度学习技术已经在许多领域发挥出巨大的作用。目前TensorFlow框架作为最主流神经网络框架之一,根据实际应用或再训练场景的改变,部署神经网络模型需要重新构建和训练模型,并且部署过程十分耗时。为了解决这一问题,微软联合多家公司推出了开放神经网络交换格式(Open Neural Network Exchange,ONNX),采用统一的标准保存深度学习模型。将Tenso
学位
随着后摩尔时代的到来,在超大规模集成电路设计阶段验证已经逐渐成为困扰各大芯片设计人员的关键问题,虽然可以使用软件仿真、硬件加速仿真等验证方法来加速验证流程,但是随着集成电路设计规模逐渐增大,原先的验证方法在时间成本上已经无法满足当前快速设计迭代的需求,使用FPGA进行芯片设计原型验证已逐渐成为验证阶段主流。但随着设计的规模剧增,单片FPGA已无法满足超大型集成电路设计的验证需求,从而衍生出高密度F
学位
计算机技术发展催生的建筑信息模型(BIM)是建筑工程行业近年来最热门的发展方向,已在建筑设施的规划设计、建造运营等环节发挥重要作用。随着物联网技术的发展,主要采用C/S架构的传统BIM服务对客户端的硬件配置要求高,学习和使用成本高,难以应对新的需求,构建基于Web端的BIM展示系统成为BIM发展的新出路。然而,在Web端BIM数据加载缓慢且渲染帧率低下,是Web端BIM展示系统的瓶颈。本文聚焦于在
学位
随着党政机关的文印市场以及各种书刊出版市场的不断扩大,机关及企业部门对印刷品质量的精确度要求也在不断地提高。而在印刷品的生产过程中,受到生产条件的影响,印刷品经常会出现各种各样的问题:例如在电子文件的排版阶段,图像分辨率的调整从而造成的信息缺失;输出印刷机的印刷生产阶段的漏印,飞墨等,都有可能导致打印出来的文件与原始文件有一些或多或少的差异,这种差异会体现在图文版式,漏字错字等可能造成信息缺失和信
学位
随着互联网技术的发展,社交媒体平台已成为人们日常沟通交流、获取信息的重要渠道,由于网络的虚拟性与隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,其中不乏充斥着色情、赌博、暴恐等敏感信息,严重影响着正常用户的网络社交体验,也影响着社会的稳定和长治久安。敏感文本通常以短文本形式出现,这些文本特征稀疏、包含的可用信息少、语法句式多变。其次,为了规避自动化匹配检测,这类文本中的敏感词还经常以其音
学位
在信息世界中,很多数据都可以用序列的形式表示,而检测数据间的相似性一直是工程领域中一个重要的研究课题,所以如何计算两个或多个序列的相似性是极其有意义的。例如,在生物技术领域中,通过分析两个生物基因序列的相似性可以判断它们是否具有近亲关系;在图片搜索中,通过计算目标图片与搜索集中图片之间的相似性可以发现与目标最匹配的图片。然而,计算序列之间的相似性通常可以转化为求多个序列的最长公共子序列(MLCS)
学位
随着现代IC设计的规模越来越大,EDA工具的运行时间也越来越长,设计者不得不牺牲精度以换取速度,但是过低的精度会导致不必要的优化,因此通常需要在结果的精度和运行时间上做折衷。在时序分析当中同样也存在这种折衷。基于图的时序分析方法GBA(Graph-Based Timing Analysis)速度快,但精度低,而基于路径的时序分析方法PBA(Path-Based Timing Analysis)精度
学位
第三代半导体GaN因自身优异性能成为近些年研究热点,本文针对耗尽型GaN HEMT器件制备工艺中欧姆接触和栅槽SiN刻蚀工艺进行了实验优化研究,主要工作内容如下:(1)实验优化了GaN HEMT器件欧姆接触退火工艺中N2气体流量和退火温度梯度。研究发现,欧姆接触金属表面粗糙度与N2流量成正比,N2流量200 sccm更适合器件制备。同时,退火工艺中升温速率100℃/15 s更有利于形成低阻欧姆接触
学位