基于深度学习的细粒度复述抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gjc444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述的相关技术研究很早就在国内外开展了,它是自然语言处理任务中的一个重要领域。复述任务如果按文本粒度划分的话,一般可以分为词汇级,短语级以及句子级;按具体任务划分,可以分为抽取式,判别式以及生成式。本课题基于深度学习的细粒度中文复述抽取技术研究,旨在研究细粒度(词汇和短语)的中文复述抽取,希望能够获取优质的复述资源。复述任务在自然语言处理任务中是偏底层的任务,复述资源的好坏能直接影响很多上层任务,例如:信息检索、问答系统、机器翻译等都能够通过复述资源进行数据增强,进而提升任务效果。考虑到传统方法在复述任务上已经日趋瓶颈,而深度学习相关技术日趋火热,在很多任务上都能够帮助提升效果。本课题基于深度学习的细粒度中文复述抽取技术研究尝试将深度学习的方法引入到中文复述任务中来,希望能够获取到更加优质的复述资源。本课题所要研究的内容主要包括以下三个部分:首先是词汇级中文复述抽取技术研究;然后是中文短语划分的技术研究;最后是短语级中文复述抽取技术研究。在词汇级中文复述抽取任务中,本文提出了基于“枢轴法”的中文候选复述抽取方式,利用丰富的在线英文词典,能够获取到大量的候选复述数据。与此同时,本文还提出了带负采样机制的多模型融合的判别方式用于在候选中文词汇复述的基础上进行判别过滤。通过对最终的中文词汇的复述资源进行随机抽取并人工评价,结果显示:本课题中所提出来的中文词汇复述抽取方法,都要优于目前其他的中文词汇复述抽取方法。在中文短语划分的任务中,本文提出了2*BiLSTM+BiLSTM+CRF的序列标注模型,基于CTB8.0的语料进行模型训练和测试。该模型主要用于在中文单语语料上进行短语划分。通过实验比对,最终证明的本文提出来的模型在中文短语划分上的效果要优于同类模型。在中文短语复述抽取任务中,本文运用预先提出的序列标注模型进行中文短语划分,通过规则过滤获取到大概103万条优质的中文短语。在此基础上进行相关对比实验,本文提出了基于二元注意力机制的递归自编码模型,用以学习中文短语的向量表示,通过计算余弦相似度,以语义距离最相近的40个短语作为候选短语复述,同时按照语义相似度,对短语复述进行排序。最后基于翻译数据和规则,过滤错误或者低质量的候选短语复述。实验对比得出结论,本课题中提出来的中文短语复述抽取方法,要优于目前的其他模型。
其他文献
探究不同尺度雾滴化学特征,是深化雾微物理化学研究的重要内容。2016年12月至2017年01月在庐山开展雾综合观测实验,获得了3次雾过程的地面气象观测和微物理资料,又利用主动式三级分档雾水采集器(CASCC 3_stage)收集到3次雾过程73个分档雾水样本,雾滴分档粒径:4-16μm(3级),16-22μm(2级)和≥22μm(1级)。通过实验分析定量得到了分档雾水的pH、电导率(EC)及9种水
大学治理是以解决大学治理过程中存在问题的多种利害关系者之间的相互交流和协商为基础的自律性决策过程。大学治理因国家、设立形式和经营方式的不同存在差异。世界各国为使
沙尘气溶胶是大气中最主要的成分,是引起大气圈、生物圈、岩石圈相互作用的重要纽带和全球物质循环及气候变化中的关键环节。塔里木盆地的中心为塔克拉玛干沙漠,是世界第二大的流动沙漠,既是中国沙尘暴天气的高发中心,也是全球沙尘暴的高发中心,它扬起的沙尘气溶胶可通过阳伞效应、冰核效应和铁肥料效应影响区域和全球气候,成为了研究全球变化的热点区域之一。虽然塔克拉玛干沙漠面积达33万平方公里,而气象观测站仅限于沙漠
20世纪20年代,著名气象学家竺可桢开始在中国的高校中开设气象学,至此我国的气象高等教育事业才慢慢开始发展。在不到30年的时间里,气象教育通过竺可桢等气象学家的艰难开创,
信息技术(IT)对生产率的影响一直是信息系统领域相关学者的研究重点。但是目前多数研究关注信息技术作为一个整体对经济效率的影响,很少有文献将信息技术区分开讨论。因此,本文根据信息技术的不同特征将信息技术分为标准IT和自制IT两种类型,分别对这两类信息技术影响行业劳动生产率的机理进行分析,提出标准IT与自制IT对行业劳动生产率有不同影响的假设。同时本文考虑信息技术环境的调节作用,选取行业信息技术密集度
注意缺陷多动障碍(ADHD)在我国称为多动症,是儿童时期常见的一类心理障碍疾病,近些年来,患病人数呈上涨趋势,所以越来越受到社会的广泛关注,但是目前发病机制尚不明确,临床诊
近年来,在许多实际数据分析中,收集到的数据往往会含有其所处地理位置的特性,当我们在对此类数据进行分析建模时,由于数据的相关性的存在,传统的模型已经不适应具有空间特性的数据进行分析,为了改善模型,很多学者提出了空间自回归模型对具有空间特性的数据进行分析;随着问题研究的深入,空间自回归模型也在不断的改进,为了增加模型的灵活性以及估计的准确性,在空间自回归模型的基础上引入变系数部分,构建变系数空间自回归
随着超精密加工和测量技术的飞速发展,对大型超精密装备的性能要求越来越高,特别是对测量精度的要求尤为迫切。坐标测量机(Coordinate Measuring Machine,CMM)的快速高精度校准技术成为目前亟待解决的科学问题和关键技术问题。激光追踪多站位测量技术作为超精密测量技术的核心技术之一,对其应用于坐标测量机校准提出了更高的要求。课题“激光追踪多站位测量技术的应用研究”的目的是基于激光追
西安航天基地主要发展航天军工及军民融合产业、北斗卫星及导航定位服务产业、光伏及半导体照明产业、物联网及云计算四大产业。其中军民融合产业里的“航天蔬菜”产业具有很
超级电容器具有超长的循环寿命、高功率输出和绿色安全等优点已得到了广泛的应用,其性能取决于电极材料的物理和化学性质。在众多电极材料中,碳材料因具有大的比表面积、可调节的孔结构、高导电性能一直是超级电容器电极材料的首选。改善碳材料的比表面积和孔结构(孔隙或孔径分布)是提高其电容性能的有效方法。通过化学活化法能够制备大比表面积的多孔碳材料,然而化学活化法中常用的活化剂(KOH、H_3PO_4、ZnCl_