论文部分内容阅读
人工智能的出现推动了多个领域的快速发展,其中自然语言处理领域通过计算机理解并应用人类语言,在机器翻译、自动写作等方面已取得了多项研究成果。近代科学的快速发展也催生了专利制度,其设立的目的是鼓励发明以及保护发明人的权利。在申请专利时,需要提交说明书及权利要求书。其中权利要求书是以说明书为依据,明确发明内容并限定权利范围。因此,可以根据说明书的内容自动生成权利要求书。本文探索专利权利要求书自动生成技术,从以下三个方面进行研究:说明书中权利要求依据识别,权利要求特征和限定部分生成以及权利要求引用部分生成。本文的研究内容及贡献如下:第一,对专利说明书中权利要求依据识别技术进行了探索,涉及到对专利说明书的深度理解及推理,将其形式化为机器阅读理解任务。首先通过清洗数据并设计对齐算法将权利要求对齐到说明书中的内容,生成伪标注数据。然后通过设计4种不同问题形式探索其对于识别效果的影响,并基于BERT模型完成训练。最后,在BERT模型基础上添加了Bi DAF网络以捕获问题及篇章间的联系,进一步提升模型性能,并在测试集上得到EM值35.54,F1值38.08的结果。第二,对权利要求特征及限定部分的自动生成技术进行探索,将其形式化为文本摘要任务。首先实现了基于seq2seq的文本摘要模型,然后在其中引入了attention机制,并验证dot、general和concat三种形式的效果。在此基础上进一步引入了copy机制结合抽取式摘要和生成式摘要,提升摘要的效果,并引入coverage机制缓解生成重复的问题。最终在测试集上Rouge-L的F1值达到82.47。第三,对权利要求引用部分的生成技术进行探索,由于引用部分主要写明引用的权利要求,因此将其形式化为文本分类任务。首先通过正则表达式匹配的方式抽取引用部分的权利要求编号,以此构造数据集。然后,通过均衡训练集中类别比例,探索不同样本结构对模型性能的影响,并基于BERT模型进行训练。最后,通过在BERT模型基础上引入LSTM、CNN、RCNN以及DPCNN结构,进一步捕获句对间的隐藏关系,并在测试集中达到了90.32的F1值。