新闻领域非结构化文本中文机器阅读理解研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dwddKTV
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解,作为人工智能的关键研究方向,目前广泛应用在搜索引擎、对话系统等领域,其目的是让机器像人类一样阅读和理解文本内容。在机器阅读理解任务的众多分类中,本文以片段抽取式任务作为研究的目标,即在给定问题和上下文的前提下,要求模型从上下文中找到某一连续片段作为答案。在深度学习的框架下,这类机器阅读理解任务通常包含四个关键阶段(文本表征、特征提取、问题-上下文交互与答案预测)。本文面向特定领域文本,重点对其中的特征提取阶段和问题-上下文交互阶段展开研究。在数据集方面,目前特定领域相关中文资源仍然处于空白状态。针对该问题,本文构建了新的中文数据集News-CMRC。该数据集为解决中文新闻报刊领域的阅读理解问题而构建,能够增加机器阅读理解领域的语言多样性。针对特征提取阶段,本文提出基于意图的上下文筛选模型。首先使用一维卷积神经网络对问句文本进行多标签分类,得到问题意图。后将该意图与上下文中的实体内容进行匹配,借此寻找到拥有该意图的篇章片段信息,将符合条件的片段筛选出来作为备选答案。作为对照,本文还在News-CMRC数据集上使用了其他模型进行了测试,实验结果表明,该筛选过程可以有效减少上下文中无关信息对答案的影响,提高部分类型问题的回答准确性。针对阅读理解模型中的问题-上下文交互阶段,本文提出基于意图的多注意力机制模型,该模型以自注意力机制和双向注意力机制为基础。具体做法是将问题意图与问题文本结合成为标签化的问题之后,再与上下文信息一同送入注意力模型中。该模型使用BERT作为底层支撑,通过多注意力机制和前向神经网络对带有意图的问题和上下文进行编码表示。实验结果证明,问句与问句意图进行融合成为标签化问题之后,相比无标签问题,该模型能提高模型捕捉有效信息的能力、提高部分类型问句的回答准确率。综合本文研究工作,将所提出的模型应用于中文新闻报刊阅读理解的场景。本文最终设计并实现了新闻报刊机器阅读理解系统。同时将新的News-CMRC数据集作为模型训练的数据支撑、将基于意图的答案筛选模型和多注意力机制模型作为模型驱动。该系统能够在给定上下文的条件下,根据用户提出的问题从文中抽取连续片段作为答案,实现完整的工作流程。
其他文献
在知识经济时代下,知识资源是各企业形成可持续竞争优势的关键,企业的知识管理水平对企业的生存乃至发展都至关重要。随着时代的快速发展和业主品质需求的提升,工程项目的规模和复杂度也随之增大。目前我国建筑企业并未针对不同建设主体、不同项目阶段开展全面的知识管理实践,缺乏行之有效的知识管理机制,项目各阶段的隐性知识未能得到及时地挖掘与存储就随着项目结束和团队解散而流失,建筑企业的知识整合能力有待提升。鉴于此
连续几年来制造行业客户需求定制化程度日益增大,产品更新迭代速度加快,生存周期越来越短,产品结构越来越复杂,涉及到多个学科和领域,企业在自主设计研发过程以及技术革新活动中产生了相当数量级的项目管理信息,研发团队越来越庞大,原来的项目管理模式已经不适应企业发展的需要,迫切需要流程再造和信息化系统升级来进行综合管理,来提升新产品项目、技术创新项目的研发攻关效率、质量和信息管理能力。本论文采用项目状态梳理
尽管中国证券市场不断发展,投资者热情不断增加,但是很多个体投资者无法对自己的投资作出系统分析。收益率计算是用户投资分析的重要基础,目前传统收益率计算方法在用户复杂投资场景下存在着收益率跳变、收益与收益率正负不一致等问题。传统的用户投资分析方法提供的维度较少且结果不够直观。另外随着互联网信息平台的迅速崛起,金融新闻在快速增加。新闻中的金融事件可以让用户了解自己投资盈亏波动中的事件因素,从而认识证券市
现如今,互联网的兴起、市场经济的繁荣发展,带来的是企业之间更加激烈的竞争,商业情报已然成为了企业占据优势地位的重中之重。商业情报不仅可以为企业规避风险,还可以为企业提供更准确高效的决策。企业关系作为商业情报的重要部分,已经成为了企业研究竞争对手的重点之一。但是关于企业关系的现有研究不够深入,尤其是分析的数据源单一、研究的关系类型过少,导致得到的企业关系不够详细准确。该课题建立在多源异构数据之上,研
建筑业在我国国民经济中发挥着举足轻重的作用,尤其是可以促进社会经济快速发展、改善人民生活水平。我国目前正处于城市化快速发展的重要时期,这为建筑业在工程项目管理方面设置了更高的门槛。在建筑业的项目管理中,进度计划和控制是重要的组成部分。项目管理的第一步是制定项目进度计划,合理的项目进度计划可以很好地平衡项目的成本和施工工期,促进项目的顺利实施。进度控制是项目施工进度计划顺利完成的实施手段,对于项目目
建筑业是我国国民经济高质量发展的支柱产业,但建筑业企业失信现象频出对建筑业高质量平稳可持续发展带来重大影响,与此同时,对失信企业的企业声誉以及竞争力也带来了不良影响。目前业界对建筑业企业信用修复的研究依旧处在初步探索阶段,对建筑业企业信用修复措施的研究尚未形成系统理论与方法,失信企业无法选取有效的自主修复措施。因此本文的研究目的是当建筑业企业发生失信现象时,如何科学地采取有效的信用修复措施,帮助企
建筑业作为与人民生活息息相关的产业,在国民经济中的支柱产业地位也非常稳固。建筑业维持稳定的增速,在疫情期间的经济复苏中发挥了不可替代的作用。然而,建筑业在稳步发展的同时,也面临着一些挑战,利润总量增幅持续放缓,产值利润率连续下降。建筑施工企业要想合理应对这些挑战,就需要在战略上更加有针对性,在管理上更加精细化。建筑施工企业的数量不断增加的同时,建筑施工企业的规模也在不断扩大,实力在不断增强。建筑施
城镇驾驶任务是当前最具有发展前景的领域之一,它具有非常大的商业价值与科研价值。模仿学习是解决该任务的一种主流方法,但是其需要大量带标签的训练数据。同时为了使车辆具有处理极端情况(比如车辆即将发生碰撞)的能力,需要大量极端情况下的训练数据,这需要大量的人力物力且困难重重。但强化学习利用奖励机制让车辆在环境中进行探索学习所以不需要任何带标签的训练数据,并且强化学习能够利用神经网络进行策略和价值估计的拟
当前人工智能领域发展迅速,计算机视觉技术也开始应用于生活中的各个领域,如何将深度学习技术应用于智能监测领域,已成为研究的重点方向。其中,人体行为识别是当前计算机视觉领域的研究热点,其不仅可以在医疗、自动驾驶等领域有所发展,亦可以替代人工来智能识别视频中的行人动作,为提高国家公共场所安全做出贡献。因此,如何提高人体行为识别在公共场所场景下的算法性能是目前计算机视觉领域的研究热点。本文基于CNN-LS
2020年,十四五规划指出,继续坚持房住不炒的定位。现阶段,政府为调控住房供需问题提出租售同权的理念,布局房地产行业的租房租赁市场发展战略。同时,我国租赁住房市场需求广阔。且房地产企业还处在较为传统的存量时代,企业需要从简单粗暴的拿地卖房状态中脱离出来,转型为出售-持有-运营全方位的模式,而在这个过程中,租赁住房类REITs较好的适配了持有-运营的开发经营模式,是一个较为成熟的金融工具。但目前,我