自然语言处理领域短语识别算法的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xuehaocad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短语识别技术在语义理解任务中扮演着十分重要的角色。短语识别技术对已经正确分词和词性标注好的句子,自动划分出不同单元块的短语,可以提升计算机对自然语言的理解能力,也对后续的深层的文本意图、情感分析等环节有很大帮助。为了得到准确率较高的短语识别模型,对用户输入数据进行了清洗,过滤其中无意义的符号,并按照不同类别符号切分单句;基于CBOW模型训练了word2vec中文词向量并随机初始化训练词性向量,拼接起来作为句子向量;设计并实现了几种基于Bi LSTM的模型作为特征提取网络来抽取句子上下文特征;设计了一套短语标注体系,标注允许嵌套结构的存在。对于清洗后的数据集进行了标注,作为短语识别算法的训练集。定义了窗口、真实短语窗口、短语窗口、背景、窗口偏置、以及短语窗口距离IOU值。对提取出的句子特征,使用了全连接网络对窗口是短语窗口还是背景进行了判别,并对判断出的短语窗口进行进一步的回归修正。短语窗口预测部分的损失函数有两部分,使用softmax函数计算窗口的分类损失,使用RMSE计算短语窗口偏置修正的回归损失。最后使用softmax分类器对每个候选窗口进行了具体类别的分类。完成了短语识别算法的设计与实现之后,使用不同的特征提取网络模型进行了测试和比较。最终经过实验测试,在短语识别算法任务中,该模型F1值达到了87.5%。除此之外也对算法的性能进行了测试,由测试结果发现算法的性能符合标准。
其他文献
随着计算机的不断发展,人们对计算机的性能提出了更高的要求,除了要有更快的处理速度之外,还要有更高的服务质量,保障系统的长期平稳运行。为了满足人们的需要,弱实时性任务被广泛地应用。弱实时任务是具有一定容错率的任务,包括感知和控制在内的许多信息物理系统应用都会有一定程度的时间容错,在不影响服务质量的情况下,允许一小部分任务执行时间超过一定期限,其中容错率是要有一定限制的,否则会失去实时任务的意义。因此
由于海量的数据流量使得在云环境内对恶意软件进行检测时,需要较高的检测效率。但是现有的恶意软件检测方法中,基于特征码的静态检测方法随着流量的增大其特征数据库规模呈几何上升,动态检测的高系统开销也难以应对大流量的检测。因此提出一种结合静态、动态检测的分步检测方式,利用机器学习分类模型实现恶意软件快速自动化检测,旨在提高云环境中恶意软件的检测效率。云环境下恶意软件快速检测方法分为四个模块:快速过滤模块、
近几年来,计算机视觉飞速发展,与之相关的应用也已经进入到人们的日常生活中。识别自然场景图像中的文本还有许多问题需要解决。自然图像中的单词通常具有不规则形状,这是由透视变形,弯曲的字符放置等引起的。在某些场景中,存在弯曲变形的文本,导致部分识别方法的识别率较低。为了提高文字识别率,我从文字识别网络的特征提取网络出发,将普通的CNN网络用ResNet网络替换,因为ResNet网络更深,解决出现网络退化
图像识别技术有着广泛的应用场景,在应对大数据时代海量数据的处理和分析时,传统的图像识别技术经常会遇到性能问题,而量子计算具有独特的性质,可以利用量子计算来解决传统算法的运算效率问题。本研究致力于利用量子计算来加速图像识别技术,由于量子计算的相关研究尚不成熟,所以主要关注了图象识别领域的一个基本任务即数字图像识别,进行量子数字图像识别的研究。现有的量子计算研究及算法通常是使用量子线路表征的,这与经典
随着计算机技术的不断发展与进步,企业利用互联网在各大招聘网站发布招聘信息,求职者结合自身情况选择对应的岗位进行应聘。企业单位日益面对数量巨大,种类繁多的电子简历文档,单依靠人工进行筛选和录入简历信息不仅效率低下,而且需要耗费大量的时间精力。因此,研究如何利用现有的计算机技术从各招聘网站进行批量下载企业需求的各类简历文档,并快速准确的自动提取出企业关注的重要信息进行结构化存储具有重要的现实意义。针对
随着无纸化阅卷技术的发展,实现全题型自动化评分过程是未来发展的趋势。现有的无纸化评分系统可实现客观题自动评分,但对于主观题仍然需要依赖人工评分来完成。而人工评分效率低,耗费大量人力物力的同时,也因阅卷者的主观情绪、认知水平不同导致评分标准不一致,从而破坏了阅卷评分公平公正的原则。虽然使用计算机进行主观题自动评分能够在一定程度上改善这些问题,但现有的系统更多的是针对于非作文类题型,对于主观题细分题型
目标跟踪是计算机视觉的一个研究子领域,其有很多的应用场景。目前单目标跟踪的研究已逐渐趋于成熟,但是对于多目标跟踪,由于其目标不确定性、遮挡、数据关联等难点,所以目前多目标跟踪还有很多需要去解决的问题,其具有巨大的发展空间和研究意义。多目标跟踪应用场景之一智能交通系统,车辆计数是其中的关键,研究该应用场景也是具有非常大的应用价值的。针对DeepSORT多目标跟踪算法存在的问题,提出了改进的Deep
空地协同网络由立体空间多功能节点构成,面对多样化任务,承载多类型的动态业务。根据空地自组织协同场景下的不同业务请求,需要多速率匹配与自适应物理资源调度机制实现多业务信息融合通信。针对这一问题,本论文研究面向空地自组织协同的融合通信技术,设计了支持多速率的物理层融合通信体制,基于典型空地协同物理信道进行了多速率通信性能分析,给出了融合通信体制下的MAC层架构设计,提出了一种面向多业务速率匹配的自适应
随着智能终端和移动互联网的普及,世界已经进入智能制造和数字消费的时代。基于位置的服务已经渗透到人们生活的方方面面,在餐饮、物流、零售、制造、医疗、安防等行业有着广泛的应用前景。由于现代建筑的空间越来越大和结构越来越复杂,人们在室内所处的时间也越来越长。室内定位需求的增长使得室内定位成为定位技术研究的一个热点。基于CSI的分区指纹定位过程同已有指纹定位一样包含离线和在线两个阶段。离线阶段的第一个任务
知识抽取是指对数据进行检测、筛查并解析,获取其中的知识并存储到知识库的技术。情报分析系统中需要依据情报类别获取情报中发生的事件以及参与事件的实体,此时基于自然语言处理的知识抽取技术能够高效的解决这类问题。为了实现英文情报分析系统中实体、事件的抽取及展示,设计并实现了知识抽取算法,并结合前后端及数据库构建出完整的应用系统。首先介绍了知识抽取算法的开发背景,然后梳理了知识抽取技术的国内外概况,对项目实