论文部分内容阅读
随着计算机技术的发展,自然语言生成技术(Natural Language Generation,NLG)越来越受到人们的重视。自然语言生成技术可以用于生成与人类表达方式类似的自然语言句子。文本复述是自然语言生成技术的一个分支,它以另外一种方式表达原句子的含义,能够应用于诸如机器翻译、智能问答等众多场景。文本复述技术已经有了较长时间的发展,但是目前对于由电影对话信息进行复述生成的研究比较少。以客观的方式对电影中的故事进行描述,生成对话的剧情信息,可以使用户高效的理解电影对话语义。但是由于对话信息的口语化和主观性特征,使得利用对话生成复述的技术面临很多困难。本文提出基于文本深度分析的剧情生成方法,具体可以分为自然语言对话抽取和电影剧情生成两个部分。对于电影字幕中的对话信息,本文设计了一个自然语言对话抽取方案。通过针对电影对话进行不流畅检测及处理,去除句子中的冗余信息;对对话进行指代消解,提升句子的可理解性;将问句与答句进行信息合并,建立问答句之间的紧密联系,防止完整信息被拆分。为了将电影中不同的故事进行整理,本文利用语义关联关系对电影对话进行对话信息的划分,并使用基于语义的聚类方法进行对话场景的生成。为了保留对话中句子的语义信息,抛弃原有的句子表达方式,本文对对话文本进行信息抽取,提取出句子中的核心元素。为了获得带有关键要素的句子,本文设计了一个对话核心要素关联句获取方法。首先在多个搜索引擎上获取相关的句子,对这些句子进行基于搜索结果的相关位置及语义相关性的句子筛选,最终得到带有核心要素信息的关联句。为了简化关联句信息,生成电影剧情的描述信息,本文设计了基于Attention机制的复述生成模型,通过引入Attention机制过滤掉不重要的词或短语,使模型更加关注重要的信息。本文设计了电影剧情生成模型的训练和生成方法,可以用于最终电影对话剧情的生成。最后本文通过数据集对本文的方法进行了实验。首先本文确定了基本的6个电影类别,并从IMDB上评价较高的电影中,针对每个类别分别选择了10个电影,以其电影字幕作为对话信息,以IMDB中的人工概述作为标准复述数据集。本文分别以一个示例对自然语言对话抽取和电影剧情生成的实验过程进行了介绍。通过利用ROUGE-1、ROUGE-2和语义相似度的评估方法对实验结果进行评估,证明本文的方法相比于LEAD、MMR和TextRank方法有较大的性能提升。