基于短语结构的汉语层次句法边界研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:langya925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着人工智能技术的广泛应用,句法分析等深层自然语言分析的关注度越来越高。句法分析的主要任务是分析一个句子的构成,并使其可以转化成句法树。通过句法分析,可以解析一个句子的构成词块,词与词之间的关系,从而帮助机器理解自然语言,并运用于机器翻译、自动问答、文摘生成等语义理解领域中。句法分析是自然语言处理的一个经典任务,本文主要研究汉语层次句法分析中的边界问题。首先通过剖析短语结构的层次句法分析的层次性和汉语的结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树。在句法边界分析的过程中,将词块识别和核心词提取分开进行,并对词块识别和词块的核心词提取方法分别进行探讨,并利用不同的模型进行了实验。具体如下:1.核心词提取。本文将词块核心词提取问题看作求词块中每个核心词的重要度的问题,然后取出重要度最高的词作为该词块的核心词。首先结合Word2Vec词向量改进Text Rank重要度排序算法,然后加入词语的相似度信息、位置信息、词性信息来提高识别准确度。2.词块识别。首先将词块识别看作一个标记序列识别的问题,然后分别使用双向长短期记忆模型(Bi-directional Long Short-Term Memory,Bi LSTM)、条件随机场(Conditional Random Field,CRF)、二者结合的模型(Bi LSTM+CRF)进行词块边界标记的识别。其中CRF能够学习输出标记序列结果的转移特征,学习预测序列相邻的标记搭配关系,达到预测标记序列联合解码的效果;Bi LSTM能够学习上下文特征,解决序列预测中的长依赖问题。Bi LSTM+CRF模型充分发挥了各自的优势,提高了序列的识别效果。在宾州中文树库(CTB8.0)语料上进行了所提出方法与基线方法的对比实验,并且对比了CRF、Bi LSTM、Bi LSTM+CRF词块识别分别与改进的Text Rank核心词提取方法组合的句法边界分析效果,以及各句长下每种模型的识别情况。结果表明,使用Bi LSTM+CRF联合改进的Text Rank识别效果最好,相比于基线LR方法F1值提升了6.58个百分点,整句正确率提升了3.68个百分点,验证了模型的有效性和稳定性。
其他文献
太阳耀斑是太阳大气活动的一种重要表现形式,产生于太阳大气中,会迅速向外发射巨大的能量和高强度的电磁辐射。太阳耀斑产生的巨大能量和电磁辐射会在短时间内到达近地空间,对短波通信、卫星导航以及空间飞行造成威胁,严重影响人类的生产生活。因此,实现对太阳耀斑的准确预报有着十分重要的意义,这也是空间天气预报领域的一项重要工作。到目前为止,太阳耀斑爆发的具体物理机制尚未十分明确,基于物理学的太阳耀斑预报模型无法
构建一个完备的无线传感器网络的首要问题是如何对传感器节点进行部署。由于传感器节点部署过程中受复杂环境及抛洒方式的影响会导致监测区域中覆盖漏洞的产生。对此,本文以由动态及静态节点共同组成的混合无线传感器网络为研究对象,对二维平面及三维空间的覆盖优化问题展开研究,提出基于Delaunay三角剖分策略的优化方案,其主要工作如下:(1)针对二维覆盖优化研究中几何学方法难以运用概率感知模型的问题,提出了基于
三七生长于潮湿、温暖和遮荫等环境下,这类环境容易诱发各类疾病,其发病情况对三七的产量和品质有决定性影响作用,随着种植体量的增大,病害的种类和面积逐年增加。目前,在三七发病率预测方向,研究仍停留在定性描述三七发病率与气象因子关系;在三七叶片病害识别方向,仍依赖于人工主观识别或采用浅层模型进行检测,但这些方法存在预测与识别速度慢、准确率低、泛化性和鲁棒性差等问题,难以高效地掌握三七发病规律,从而不能有
近年来,随着互联网技术的迅速发展,众包模式在各行各业得以应用。众包作为一种面向互联网大众的问题解决机制,聚合大众智慧以更好地解决问题。在众包场景下,众包任务和工人拥有不同需求及意愿,将众包任务分配给与其需求不相符的工人会影响众包任务的完成质量。同时,在众包发包者与工人进行交互的过程中,分配结果可能随着分配双方发现更好的合作对象而有所变更,从而出现无效分配影响分配结果的稳定性。因此,如何有效地将众包
眼底视网膜血管图像作为人体唯一一处不需要侵入性手段就可以获得的血管图像,具有较高的临床价值。眼科以及内科的专家可以根据视网膜血管呈现的不同特征,较为精准的判断多种疾病。然而,在实际的应用中,由于视网膜血管结构复杂以及采样光照和成像设备的影响,常常导致眼底血管图像难以观察,增加了医生的工作难度。因此,研究出一种自动化的高精度视网膜血管分割算法,对于目前的临床辅助诊断非常重要。本文基于深度学习技术对视
供水系统作为城市的基础设施,水质质量直接影响人们的用水安全。在净水厂处理工业中,混凝沉淀是水处理系统的重要工序,决定着水厂出水质量和制水成本,其中混凝剂投加量的控制是关键。由于进入净水厂原水水质地波动,净水厂混凝投药过程存在较大的时滞性,很难及时且精准的计算投药量。因此,对水厂混凝投药系统进行建模,来预测投药量,对保证供水质量安全、降低能耗十分有意义。本研究通过径向基(RBF)神经网络预测模型对水
阿尔茨海默症(Alzheimer’s Disease,AD)是最常见的神经退化疾病之一,严重危害患者的生命健康。核磁共振成像(Magnetic Resonance Imaging,MRI)和正电子发射计算机断层成像(Positron Emission Tomography,PET)可以分别提供大脑的结构与功能信息。国内外最新研究表明,结合同一受试者的MRI和PET图像将有助于提升AD辅助诊断的准确
车联网(Internet of Vehicles,IoVs)是物联网在智能交通领域的重要组成部分,利用车联网技术为车辆提供事故预警消息对于减少或避免次生事故的发生、提高交通安全具有重大意义,是当前车联网应用的研究热点之一。高速公路上由于车辆行驶速度快、车辆位置频繁变化等,导致车间信道条件差、传输不稳定,使得事故预警消息的分发面临严峻挑战。此外,将事故视频作为预警消息进行传播时,能够提供传统文本消息
行人重识别(Person Re-Identification,Re ID)旨在通过非重叠相机采集到的图像中找到与查询图像身份相同的行人,它通常也被认为是图像检索的子问题。近年来随着深度学习的兴起,行人重识别技术在智能监控、安防等领域得到广泛地发展及应用。现有的大多数行人重识别算法都是在同一数据集上进行有监督的训练后再测试,这类算法虽然性能较高,但是极大的限制了其可扩展性。在现实场景中,通常需要将训
海洋资源的开发利用是未来发展的战略重地,因为水下环境恶劣,人们通常借助水下机器人进行海洋探索,通过对水下视频和图像的研究分析,实现海底考古、海洋军事勘察、海洋牧场养殖、海洋环境监测、海洋生物保护等任务。水下拍摄环境复杂恶劣,大量噪声和失真的产生使拍摄的图像质量低下,导致关键特征信息丢失,因此如何获得高质量的水下图像显得尤为重要。为了获取高质量的水下图像,本文针对常见的自然光照下浅海图像和人工补充照