基于深度学习的中文影视剧本命名实体识别研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:ashwingangel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,人们已经形成随时随地浏览信息和观看影视的习惯。影视行业的快速发展,激发了剧本创作者的创作热情,而剧本的增多,给剧本审核人员带来了巨大的挑战。准确识别中文影视剧本的命名实体帮助筛选出剧本中具体的人名、地名和机构名,为审核人员审核剧本提供了便捷。中文影视剧本人物对话较多,而大部分人物对话冒号前都为人名,本文根据中文影视剧本的写作特点,提出了基于规则的中文影视剧本的人名识别方法。通过基于规则的方法识别出冒号前的文本,并分析是否为人名,在《士兵突击》剧本上进行实验,得到97.47%的准确率,55.49%的召回率,70.72%的F值。中文影视剧本人物之间的对白偏向生活化以及口语化,使用较多的停止词。根据此特点,作者提出了融合去停止词的Bi-LSTM-CRF中文影视剧本的命名实体识别方法。首先去除剧本中的停止词,其次使用Bi-LSTM-CRF的方法识别命名实体。在“士兵突击”语料上的实验结果表明,融合去停止词的Bi-LSTM-CRF方法相比基于规则的方法在人名识别方面F值提升了26.67%,相比基于字级别的Bi-LSTM方法在人名,地名和机构名整体方面F值提升了19.04%。由于影视剧本领域标注语料十分稀缺,而新闻领域标准并且规范的标注语料很充足,本文将新闻领域中1998年1月的“人民日报”语料与影视剧本领域中的“士兵突击”语料结合起来进行实验。实验结果表明,在“士兵突击”语料中加入适量的“人民日报”语料可以提高命名实体识别的F值。
其他文献
紫砂壶的工艺表现是十分讲究的,整体与局部的切合、线条的流畅度,都是为了表现紫砂的内涵本质的。紫砂的创作也是历代艺人所追求的成长.在许多造型中紫砂所要表现的也是人们内心
9月13日,佛山金刚企业集团一年一度的拔河比赛在佛山西樵金刚生产基地热闹举行。来自佛山金刚企业集团旗下的陶瓷研究所有限公司、金刚投资公司、
近日.德化县科技局相关负责人正忙着组织人员采购微波介电常数测试仪,以推动“信息功能陶瓷”的成功研发,进一步拓宽陶瓷应用领域.打造“中国瓷谷”,切实推动该县陶瓷产业的转型升
根据智能车辆主动驾驶辅助系统中的重要性,提出了一种融合毫米波雷达数据和视觉多特征的车辆检测算法.车辆检测算法通过三个步骤实现,首先,提出一种空间对准算法实现毫米波雷
近些年来SBS改性沥青由于性价比较高,并且与普通沥青相比在高、低温性能和粘弹性等性能方面效果更好,因此在道路沥青中占有60%之多份额。但是SBS与基质沥青电荷分布、分子量
近年来不断发展成熟的合成孔径雷达技术将获取的图像分辨率提高到分米级.在高分辨率条件下,建筑物在SAR图像上表现出的空间信息更加丰富,结构特征更加明显.首先提出了分解模型对
作文评语应该有话则长无话则短,才能体现科学的态度和实事求是的精神,恰如其分地达到目的和解决问题。 作文评语包含许多方面。因为对作文的要求是多方面的,作文所牵涉的知识
民间艺术作为中国传统文化的一个重要组成部分,是现代陶艺创作重要的灵感源泉。只有关注本民族的优秀文化,才能在陶艺创作中找到属于自己的言说方式。
羽毛作为一种直观、易于观察且表现丰富的外观性状,一直是人们研究的热点。国外学者研究显示KRT75基因cds区69 bp的缺失是导致鸡卷羽性状发生的主要原因,但在本课题组早期研究发现我国地方品种麒麟鸡的KRT75基因与正常羽的的完全相同,不存在缺失。同时我们通过一代测序检测发现KRT75L4基因cds区存在15 bp(chr:33:1295046-1295060)缺失。这表明我国地方鸡种与国外鸡种卷
介绍了UHR工艺流程、特点及在深度处理焦化废水中的技术研究。研究表明:UHR系统运行十分稳定,出水水质良好,完全达到国家二级排放标准;反渗透浓水COD和氨氮含量小,能够满足浇