基于神经网络的小说人物表示及其应用研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:eyeknee1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
思想文化的大发展,促使文学工作者创作出大量的文学作品,这对自然语言处理技术的应用提出了新的挑战。本文收集了大量的英文小说文本,构建了小说文本语料库,使用基于神经网络的方法进行小说人物的表示学习,并将学习出的人物向量用于人物聚类和分类的研究。本文将自然语言处理技术应用于文学领域,对自然语言处理和文学研究都有一定的促进作用。具体研究内容如下:(1)小说语料库的构建。从古腾堡计划收集英文小说两万余部,进行了分词、词性标注、命名实体识别、句法分析、人名聚类、指代消解等预处理,从中抽取每一个人物的句法依存特征,共计抽出人物四十万余个,对其特征进行了统计分析。(2)基于依存特征的人物分布表示及分析。借鉴词向量的学习方法,采用Skip-gram模型同时训练出人物向量和依存特征词向量。基于学习出的人物向量进行了人物相似度计算的实验,在测试集的四个类别的假设中有三个类别优于基于主题模型的方法。进一步对特定人物的相似人物进行了分析,发现同一个作者不同作品中塑造的人物具有相似性。(3)人物表示的应用。基于训练出的人物向量,分别进行了人物聚类和分类的研究。人物聚类采用k-means算法,假设同一个作者塑造的人物归一个类,聚类的纯度达到0.724。对人物分别按性格和性别进行自动分类,首先构造了小说人物的性格、性别数据集,分类算法采用多层感知机模型,实验结果表明,基于人物向量的结果优于词向量平均池化的方法。
其他文献
中等职业教育(简称中专)是不同于高中教育的另一起点的教育。为了能够培养出符合时代和社会需求的高素质的劳动人才,必须实施以能力为本位的素质教育。本文从中专语文学科的教
电信业是国民经济的基础性产业,战略性产业和新兴产业之一,随着通信与信息技术的飞速发展,电信业在国民经济和社会生活中的作用越来越重要,与人民生活更加息息相关。原来采用的统
<正> 眼顿挫伤是由于顿力的作用,如打击、压迫、震荡等所致眼部的损伤,称为顿挫伤。其临床表现多种多样,从眼睑皮下淤血至眼球破裂或其周围组织的破碎,眼顿挫伤是眼科临床常
<正>一直以来,"教书匠"这个词都带有贬义,往往被视作是机械呆板、不求上进的代名词。然而,在新的时代,尤其是在职业教育大力弘扬"工匠精神"的背景下,"教书匠"这个词也应被赋
建构主义理论已成为指导中学教学实践的重要理论,它认为学生学习的过程,不是教师的“灌”,而是学生本人充分运用原有的信息与新接受的信息进行加工、整合,自我建构知识网络的过程
茅山道士抓鬼思想历来就有,并通过影视作品和文学作品得到发展,这一思想是如何起源和发展的?一方面与人们固有的鬼魂观念,惧怕鬼怪思想有关;另一方面又与茅山道当时的发展状
本课题采用前瞻性研究方法,对失去手术机会的中晚期肺癌患者行微创非血管性介入冷冻(氩氦刀)治疗前后证候特征变化规律进行了深入、细致的研究,以探索中晚期肺癌患者新的治疗方
“党指挥枪”是中国共产党领导人民军队的根本原则,党对部队的绝对领导是通过各级党组织具体实施的。在深入贯彻党的十六大精神,全面建设学习型社会、学习型军队的新时期,着力抓
<正>消化内镜治疗的临床应用在最近20余年中有很大进展。消化内镜治疗侵入性小,使消化系统许多疾病的治疗"微创伤"化,故在许多方面对病人的利益超过了传统外科手术。现对消化
本文采用免疫治疗方法探讨阿片类物质滥用的防治。用琥珀酸酐法合成6位琥珀酰吗啡(M-6-S),将吗啡及M-6-S在碳二亚胺(EDCI)催化下,分别与大分子载体蛋白结合,形成吗啡-载体蛋白交