基于语义单元替换的仿写技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xjtcfx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言生成作为自然语言处理比较重要的一部分,正在被各大高校和研究机构等研究利用。随着深度学习和大数据的浪潮兴起,自然语言生成有了阶段性的突破,例如对话系统、新闻自动生成等。国家863重点项目——高考机器人是涉及自然语言处理方面的一项具体内容。其中语文作文部分至关重要,所占分值较大,所以让计算机根据作文题目,自动生成一篇作文具有很大的挑战。目前生成作文所采取的方法分三步:立意分析-句子抽取-句子排序,但是这种方法对语料的依赖性较大,当作文题目在作文语料中涉及较少时,会影响所生成的作文质量。为解决这一问题,本课题提出了作文仿写的方法,作文仿写根据已有的相关主题作文范文,仿照其句式等生成另一篇作文。本课题根据作文中句子的角色信息,提出词语级和句子级作文仿写方法,对不同角色的句子采用不同的方式进行仿写。基于词语级作文仿写,主要针对作文中论点句,论据句等角色的句子进行仿写。该方法首先根据一定的规则获取句子模板,第二步获取候选词集合,本课题采用相似度、同义词、Bi-gram、基于句子上下文特征信息等方法来获取候选词集合。最后,进行词语替换,这里本课题采用语言模型的方法,选取概率最大的词进行替换。根据替换结果可以得出基于上下文特征得到的候选词集合效果最好。基于句子级的作文仿写任务主要针对作文中句子角色为事例句的句子进行研究,由于事例句中人物和事迹存在一一对应问题,利用词语级仿写方法可能会出现人物事迹不匹配等问题,本课题提出句子级仿写的方法,也可理解为句子级复述问题。对于这一问题,本课题首先尝试了基本seq2seq模型用于句子复述,并在此基础上加入attention机制,比较句子生成结果,可以得出加入attention机制的模型生成结果效果要好。此外本课题提出copy机制和coverage机制对模型进行改进,其中copy机制旨在解决原句中出现人名、地名等特殊词汇的情况,这样情况我们希望模型可以对词进行复制,不进行改变,实验结果证明,copy机制对这一情况有所改善。此外,针对seq2seq普遍存在的重复问题,我们在copy机制的基础上加入coverage机制,有效改善了生成句子的重复问题。
其他文献
较为准确的气温预报对农业生产,国防建设有着重要的意义。大气场中影响气温的因素很多,温度变化具有长期的不确定性,具有典型的混沌特征,其短期具有一定的可预测性。因此,预
目前我国城市交通拥挤现象日趋严重,为解决交通不畅问题,城市公路隧道日益增多,公路隧道的智能监控系统是隧道正常高效运营必要条件。虽然当前隧道监控的设备及监控方案己基
随着网络技术的日益发展,网络安全问题也变得日益严峻。异常行为检测作为一种积极主动的安全防护技术,在网络系统受到危害之前拦截和响应入侵,对网络主体进行纵深、多层次的
随着互联网的快速发展产生了海量数据,按照数据结构可以将这些数据划分为:高结构化数据、半结构化数据及以原始文本。其中结构化数据由于其具有完整的逻辑结构以及描述信息,
网络准入控制系统通过对于接入点的控制从而实现对整个网络的防护,准入控制技术层出不穷,其中以IEEE802.1x技术最为业界所认可。802.1x作为准入控制业界标准具有高度的灵活性
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文
随着金融电子化程度的提高和计算机知识的普及,金融领域计算机犯罪问题越来越突出。而且有资料显示,过去发生的网络金融犯罪案件,绝大部分为内部人员所为,金融业务的安全性面
21世纪是知识经济时代,知识是企业的重要无形资产组成部分,是企业经营决策智慧的重要支撑,是提升员工工作效率和企业核心竞争力的重要因素,是企业永续发展必须重视的资源。鉴
针对当前日益严峻的环境形势,我国目前常规的环境监测手段已无法满足业务化流程的需求。出于国家安全考虑,我们需要提供自己独立专利权的生态产品生产分系统,使我们能够在任何时
随着高等教育的深化改革和招生规模的急剧扩大,我国高校普遍陷入了实验教学的困境。主要表现在硬件设施不足、教学方法和内容落后、教学受时空限制等方面。在计算机和多媒体